24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
собственная поисковая система
Аноним (Microsoft Windows 10: Firefox based)29/05/23 Пнд 16:52:56#1№3313558
(по совместительству тред обхода жидомасонской поисковой цензуры с удалением неудобных результатов поиска)
существуют ли готовые опенсорцные поисковые движки, "пауки" или "кравлеры", которые можно запустить на своём компьютере? в гугле находится только всякая фигня типа Searx и Mojeek, которая или не является реальным поисковым движком, или которую невозможно запустить на собственном железе. ну и миллион не поисковых движков, а просто кравлеров, которые ещё нужно допиливать, чтобы они стали поисковой системой.
>>3314085 у меня есть пара свободных серверов с безлимитным трафиком и несколькими терабайтами места.
>>3314123 а это уже слишком дохуя будет стоить. имхо весь текст в интернете весит не больше сотни гигабайт, а вот картинки - да, десятки и сотни терабайт.
Аноним (Microsoft Windows 10: Chromium based)01/06/23 Чтв 20:29:46#6№3314995
>>3313558 (OP) А вот и свободный от оков цивилизации. Свободный от зондов, капчующий через интернет, провайдер которого видит весь трафик, хранит сообщения и звонки, который по первому требованию отдать это всё товарищу майору. Сидящий на мейлрушной борде, живущий в городе, где на каждом шагу камеры. И еще пытается выпукать свое говнище. Выйди на улицу, потрогай траву, а не дома сиди, шизик.
>>3314995 не путай тёплое с мягким. мне похуй, что провайдер и майор всё видят на самом деле почти ничего не видят, но это совсем другая история, но мне не похуй, что гугл сортирует результаты по собственному желанию, в первую очередь подсовывая проплаченное говно, и что он удаляет результаты поиска "по запросу правообладателей", "по закону о забвении", "по желанию левой пятки".
>>3314811 > имхо весь текст в интернете весит не больше сотни гигабайт, а вот картинки - да, десятки и сотни терабайт.
"A single copy of the Internet Archive library collection occupies 99+ Petabytes of server space" но это не только вебсайты, но и музыка, видео, софт, исо образы виндовса, "computer magazines and journals, books, shareware discs, FTP sites, video games, etc" сколько весит чисто web.archive.org я не нагуглил, у интернет архива есть официальное API, можете поковыряться: https://github.com/jjjake/internetarchive https://archive.org/developers/items.html
Простой эксперимент для всех сомневающихся. Вводите любое слово в поисковики и мотайте, просматривая выдачу. Там будет один-два десятка результатов со ссылками на вики, клоны вики, всякую правительственную парашу, ВК (если вы там зареганы), на объявления. ЗАТЕМ! Эти выданные сайты начнут тупо повторяться, меняя порядок, а иногда не меняя, т.е. мотаешь 100ую и 300ую страницу, а там просто они одинаковые по выдаче. НО! Чаще всего вам просто выдадут пару десятков страниц с выдачей И ВСЁ! Ещё недавно (месяц назад мб) гугл выдавал под 50-70 страниц, сейчас видимо заболел. Скрины прилагаю. 1. Я конечно понимаю, что Москва - это какая-то хуйня, но может она достойная больше двадцати с хуем страниц выдаче В ГУГЛЕ - царе поисковиков??? 2. Дакдакго самый честный поисковик. Ты запросил слово автомобиль? Это чо? На нахуй тебе 6 страниц выдачи и иди нахуй, не мешай. 3. Я конечно понимаю, что слово "слово" и слово "Бюджетный федерализм" имеют разную частоту употребления в инете, но блядь, яндекс, какого хуя у этих двух запросов по 25 страниц выдачи? 4. Пока мотал яндекс до последней страницы, он спросил меня "А не бот ли ты, петушок?". Я -нет, а ты блядь?
Про свои "А вот в икс поисковике всё хорошо" - сходите нахуй, а перед этим почитайте какие запросы он выдаёт - всё после пары десятков страниц начинает повторяться.
Боты из треда не сочкуют. А какого хуя так людей стало мало на дваче с 17 октября? >Так это хохлов отрубили от инета. Бляя складно.
>Да нет тут никакого заговора, просто копирайтеры пук, рекламщики среньк, капитализм пук.
Мне кажется хоть бы в Интернете осталось 10% того, чтобы было в 2010. Я гуглом пользовался с середины нулевых. Я обожал сёрфить в интернете, это было как кладоискательство. Сотни страниц картинок от одного запроса. Я мог найти кино, просмотренное в глубоком детстве, по его смутному описанию. А сейчас что?
Любой специфический запрос приходится закрывать в ковычки, ибо алгоритмы усредняют всё под тупого юзера, чтобы подсунуть популярные "похожие" запросы. Наверное всех бесит это, когда Не найдено: N| Запрос должен включать: N при этом зачёркивая половину запроса в т.ч. суть.Последние месяцев 6 Гугл совсем скис и даже ковычки стали хуже помогать, я стал замечать, что всё чаще обращаюсь к Яндексу за специфическим запросом.
Написав длинный запрос и закрыв всё в ковычки как надо, с большей вероятностью тебе попадутся одни дорвеи.
99% форумов вымерло. Раньше в гугле вообще можно было помимо "карт" и "видео", выбирать "обсуждения", где подбирались различные форумы на всяких популярных движках типа XenForo.
Всё ушли в соцсети? Хорошо. Только вот соцсети окуклили. Те же группы вк плохо стали индексироваться, даже с site:vk.com не найдёт.
Даже не скрывают, что подбирают только "ПОЛЕЗНЫЕ" запросы
> Тебе гугл откровеено говорит, что доступ юзера к результатам поиска - атавизм, и много лет целенаправленно уничтожает поиск. Когда поиска совсем не станет - лишь вопрос времени.
Теперь понятно зачем "Яндекс" и "Google" уничтожили поиск. Они так не только скрыли зачистку интернета, но и подготовили почву для поисковой надстройки в виде ботов.
Схема простая: доступ к полной базе данных будут иметь боты, а людям - демо-версия, имитирующая поиск.
В результате люди ищут и не могут найти, бот находит легко. Это уже реализовано.
Т.е. людей подталкивают, вынуждают использовать надстройку вместо самостоятельного поиска информации и её анализа.
Анон выше про "истину в последней инстанции" прав.
Помимо интернета, вывели и расплодили "потребителей", которые воспринимают ссылки на "авторитетов" (или просто ссылки) как нечто священное.
Старожили знают что такое нормальный поиск в интернете и нормальные сайты с нормальными статьями, а не сгенерированная дрянь. "Ньюфагам" банально не с чем сравнивать, они стали использовать интернет когда он уже стал барахлом и нейросетевые системы могут восприниматься ими как "шаг в будущее", потому что это стандартная схема "отобрать и вернуть", только возвращают с контролируемой посреднической системой.
Получается сразу пачка степеней цензуры информации:
- модерация; - поисковые системы; - нейросетевые системы.
На каждом уровне цензура. Плюс "теневые баны" и "информационная изоляция".
Дословные цитаты из "Библии" поисковики уже не всегда находят.
Аноним (Microsoft Windows 10: Chromium based)07/06/23 Срд 12:28:33#20№3316752
>>3315004 >провайдер и майор они существуют только в твоем воображении, дебил
>>3316739 >>3316742 >>3316745 всё так анон. Но что делать? Допустим запускаем какой то локальный индексатор, вопрос 1) сколько всего доменов в интернете? 2) как получить полный список? 3) как долго краулер будет обходить все сайты? 4) сколько полезных данных удастся индексировать на обычном HDD размера 4-10Тб ? 5) с какой скоростью потом будет работать поиск?
>>3316860 > 1, 2 под миллиард. иногда кибержулики сливают зоны целиком, у меня где-то валялись дампы. можно посмотреть на веб архиве, раньше вот тут была зона ру: https://partner.r01.ru/ru_domains.gz
пиздец, только сейчас заметил, что моя заметка с этими ссылками создана в 2011 году.
проверил веб архив: .ru зона последний раз выкладывалась в сентябре 2013го .com - первый и единственный раз в 2014ом (странно, что кравлер веб архива не знал про эту ссылку в 2011ом) .net и .org - вообще не архивированы
>>3316862 > долго) но у меня есть безлимитный гигабит. когда я баловался с массканом, весь мир на один порт сканировался 5-15 минут. но это чисто connect и read 1024 байт баннера, скачивание всей страницы + всех её элементов (яваскрипты и css всякие (хотя хз, нужны ли они для архивирования)) займёт намного больше времени, но тоже терпимо. имхо выкачать вообще весь интернет по 80 порту займёт максимум неделю, плюс ещё 443 порт и ради прикола 81, 8080, 8443 тут нужны пацаны из ИСКОПАЗИ, чтобы точнее соориентировали по времени.
обоссав шизика, узнавшего про двач три года назад на лурочке и теперь делающего вид, что он ниибацца олдфаг и негодующего, что на его дваче кто-то ставит скобочки, вернёмся к конструктивному обсуждению.
основная проблема gigablast >>3313558 (OP) и прочих публичных кравлеров >>3315159 в том, что они тупо собирают HTML код со страницы, и не выполняют Javascript код, а вот гугл и прочие яндексы исполняют яваскрипт и получают больше информации, чем простой дамп HTML. к сожалению, в современном уебанском вебе большинство сайтов работают исключительно на яваскрипте, и если какую-нибудь парашу типа инстаграма мы можем просто занести в блэклист кравлера - там всё равно ничего ценного нет - то форумы на движке Discourse и сайты на движке Wix как-то парсить надо. то есть простой модификацией какого-нибудь masscan не обойтись, в кравлер придётся вкручивать v8 или какой-нибудь ducktape для выполнения яваскрипта.
>>3317283 потому что ваше место у параши. в очередной раз напоминаю, что в интернетах писать с маленькой буквы было принято задолго до того, как тебе купили первый компьютер.
> Marginalia, the indie search engine that surfaced non-commercial content first, is currently on the front page of HN and handling the traffic load with one $5k commodity server with 128GB RAM/24 cores at 85% utilization with a single Java app
> The search engine now indexes 106,857,244 documents!
вообще шикарно. это намного меньшие затраты, чем я предполагал.
>>3320728 хотя нет, это не совсем то. это поисковый движок типа еластик сёрч, а не кравлер. этот движок использует данные, собранные проектом https://commoncrawl.org/
с другой стороны, благодаря alexandria я узнал об этом commoncrawl, так что всё равно спасибо.
а также неизвестно, фильтруется ли что-то в этом commoncrawl или нет. может, там тоже неудобные результаты были вырезаны жидомасонами.
я считаю, что для того, чтобы иметь unbiased данные, нужно сделать следующее:
1. натравить павука на весь диапазон IPv4 0.0.0.0/0 (нахуй IPv6) 2. натравить павука на все известные домены >>3316893 3. совместить собранные данные с публичными данными от commoncrawl.
дискасс
Аноним (Microsoft Windows 10: Chromium based)17/06/23 Суб 12:41:46#61№3320802
>>3320781 травить по IP = уменьшать результаты. У хостингов на одном IP висит по сотне доменов и простой запрос по IP выдаст дефолтную пустую страницу (или максимум первый домен из сотни).
>>3323881 потому что завтра к этому непопулярному поисковику придут и попросят убрать из выдачи неприятные результаты, а свой паук со своей базой - это свой паук и своя база.
Аноним (Microsoft Windows 7: Chromium based)26/06/23 Пнд 22:42:27#68№3324060
БАМПУЮ В ТЕМАТИКЕ ХОБА!
Аноним (Microsoft Windows XP: Firefox based)26/06/23 Пнд 23:55:31#69№3324064
>>3313558 (OP) Как ты будешь размещать сервера под кроватью, если там всё место жиды заняли?
Аноним (Google Android: Mobile Safari)27/06/23 Втр 00:29:40#70№3324068
>>3313558 (OP) А есть ли смысл? Чат гопота/альпака и тд уже заархивировала ценные знания. Ну а бд яндекс еды и так не в белом интернете.
>>3324064 жиды под кроватью, а сервера в датацентре.
Аноним (Google Android: Mobile Safari)29/06/23 Чтв 13:22:07#72№3324767
Хуй с ним с поисковиками. С порносайтов пропала порнуха, которая там всегда была. Все "вот те" заебавшие ролики по соответствующим запросам. Просто блядь нету, как корова языком слизала. Не говно, не процессоры, не расчленёнка, обычная. Заходя с VPN из разных стран часть этого старья иногда появляется обратно, но не всё и с разных VPN пояаляется разное. Нахуя так делать? Подписку я всё равно не куплю при наличии миллиона аналогичных сайтов в поиске.
>>3324767 > с разных VPN пояаляется разное лол, я совсем забыл - гугол же тоже показывает разные результаты для разных стран. и что, сука, характерно, он показывает разные результаты даже для запроса site:тут-какой-нибудь-сайт.ком в зависимости от того, из какой страны гуглишь. пиздец, короче.
Аноним (Microsoft Windows 10: Chromium based)30/06/23 Птн 14:23:19#74№3325106
>>3325106 это, конечно, клёвый аддон, но только он не имеет никакого отношения к тематике треда.
Аноним (Microsoft Windows 10: Chromium based)02/07/23 Вск 13:16:47#76№3325686
>>3316745 >Старожили знают что такое нормальный поиск в интернете и нормальные сайты с нормальными статьями, а не сгенерированная дрянь. это ты щас про сайты типа wikiHOW ? или HOW-To-DO?
Аноним (Google Android: Mobile Safari)22/07/23 Суб 01:36:02#79№3333599
>>3314811 >у меня есть пара свободных серверов с безлимитным трафиком и несколькими терабайтами места. Нужно безлимитное количество ip с которых будешь сканить а не трафик. >а это уже слишком дохуя будет стоить. >имхо весь текст в интернете весит не больше сотни гигабайт Вот это ты дурачок. Один либрусек весит 300Гб и это в пожатом виде https://rutracker.org/forum/viewtopic.php?t=5384939 А текст в интернете весит тысячи ТБ.
Аноним (Google Android: Mobile Safari)22/07/23 Суб 01:51:04#80№3333604
>>3316860 Тебя забанят везде на второй день или даже раньше, потом прилетит абуз твоему провайдеру/хостингу и тебя отключат. На этом гг.
Хочешь обойти цензуру поисковиков присоединяйся к тем кто ведет реестры удаленного из гугла говна.
Выдача 20 страниц это просто оптимизация, ты же не думаешь что ради одного дебила поисковик по слову москва выдаст все свои миллионы страниц?
Аноним (Google Android: Mobile Safari)22/07/23 Суб 06:59:09#81№3333659
>>3333599 Чел, а зачем хранить тексты, если сеть не собирается сегментироваться и удалять свободный доступ? Тогда достаточно просто создать дерево графов или облако тегов, раздать им цифробуквы и определения, а дальше просто весь текст пропускать через семантико-семиологию нейронетов, они циферки/цвет/звук выставят и определят/зададут направление/вектор поиска при запросе. А дальше будет просто запрос - телепорт к нужному хосту, вычитка, анализ, результат хранимой инфы. Пусть гугл и люди и дальше хранят архивы, фактически, у тебя будет каталог, реестр анализа, и ты будешь прыгать по данным, как блоха по слону. Как рисунок Матрицы на мониторе, с бегающими иероглифами оформить, и весьма символично будет, лол.
Аноним (Microsoft Windows 10: Firefox based)22/07/23 Суб 14:00:17#82№3333796
>>3333599 достаточно несколько проксей в нескольких странах, большинству хостеров похуй, что с них сканят, особенно если вставишь в юзерагент ссылку на страницу для "отписки" от скана.
> А текст в интернете весит тысячи ТБ. commoncrawl - 250 TB но всё это мне не нужно, имхо нескольких десятков терабайт хватит с головой.
>>3333604 домашним провайдерам на сканы глубоко похуй, хостерам иногда бывает не похуй, но если сделаешь форму отписки - станет похуй.
Аноним (Google Android: Mobile Safari)11/08/23 Птн 11:24:26#83№3342469
>>3333599 А если упорться децентрализацией? Например, на компе добровольца запускается краулер, который сканит свой сегмент сети. Краулеры общаются между собой через тот же Yggdrassil. Работать может примерно так: реализовать на уровне приложения и краулер, и интерфейс поисковой системы, плюс приложение будет иметь библиотеку всех ipv6 адресов, на которых оно хостится. Таким образом, пользователь, чтобы получить доступ к поисковику, также хостит у себя и краулер. Задавая вопрос поисковой системе, приложение опрашивает себя и остальных, получант ответ, формирует форму предоставления для пользователя. Основных затыков вижу два: 1. Сегментация Интернета между краулерами, чтобы ответ из сети не имел дублирующихся значений (но несколько краулеров могут по общему алгоритму шерстить один и тот же сегмент для отказоустойчивости) 2. "Слепота" поисковой системы на ранних этапах развития.
Аноним (Microsoft Windows 10: Firefox based)12/08/23 Суб 15:01:01#84№3342777
>>3342469 > но несколько краулеров могут по общему алгоритму шерстить один и тот же сегмент для отказоустойчивости не "могут", а должны шерстить один и тот же сегмент, потому что огромное количество сайтов и CDN используют геоблокировки и я в том числе, ибо нахуй мне паразитный трафик из какой-нибудь африки
Аноним (Microsoft Windows 10: Chromium based)12/08/23 Суб 17:16:55#85№3342844
>>3320672 >>3320728 Я правильно понял. что нужно иметь свой сервер чтобы найти информацию?
Аноним (Microsoft Windows 10: Firefox based)13/08/23 Вск 11:37:12#86№3343108
>>3342844 зависит от каждого конкретного движка. маргиналия >>3320672 например даёт искать по своей базе.
Аноним (Microsoft Windows 10: Firefox based)15/08/23 Втр 11:28:07#87№3343861
> Browsertrix Crawler is a simplified (Chrome) browser-based high-fidelity crawling system, designed to run a complex, customizable browser-based crawl in a single Docker container.
Аноним (Google Android: Mobile Safari)16/08/23 Срд 17:28:47#88№3344464
>>3342469 >А если упорться децентрализацией? >Например, на компе добровольца запускается краулер, который сканит свой сегмент сети. Это единственное потенциально рабочее решение. Если людей наберется тысячи то еще и работать лучше гугла будет.
Начинайте разрабатывать.
Аноним (Google Android: Mobile Safari)16/08/23 Срд 23:43:15#89№3344624
>>3313558 (OP) Yacy же есть. Он как раз на 100% попадает под тебя
Аноним (Microsoft Windows 10: New Opera)17/08/23 Чтв 02:13:25#90№3344654
test
Аноним (Google Android: Mobile Safari)17/08/23 Чтв 02:59:44#91№3344657
Сап. Есть ли какая OSINT вундервафля для сталкинга? И на себя в прошлом посмотреть, и за ЕОТ пошпионить?
Аноним (Google Android: Mobile Safari)17/08/23 Чтв 10:01:51#92№3344732
>>3344464 Вообще сейчас хочу сделать децентрализованную борду в игдрассиле, основная задумка -- локальные копии тредов по умолчанию сохраняются на устройствах тех, кто в них заходит, и могут быть загружены у них же новыми посетителями вместе с ipv6 адресами всех держателей треда, по которым будут пробегаться, обновляя тред. В планах отказаться от разделения на доски, но ввести хештеговую систему тредов с возможностью включения и исключения тегов. Проблема только в том, что последний раз что-то кодил в универе, что было 4 года назад. Сейчас вот думаю, как синхронизировать бд, хранящиеся у всех отдельно. Кстати, вопрос знатокам: PWA может фоном гонять данные по сети, и на каких осях?
Аноним (Google Android: Mobile Safari)17/08/23 Чтв 10:03:07#93№3344733
>>3344732 Ну и, если получится, может и до краулера доберусь, да. >>3342469 - кун
Аноним (Microsoft Windows 8: Firefox based)17/08/23 Чтв 10:15:58#94№3344735
>>3344732 >Кстати, вопрос знатокам: PWA может фоном гонять данные по сети, и на каких осях? В шинде PWA на хромиум могут обращаться с API фоновой выборки, периодической и постоянной фоновой синхрой. Как ты понимаешь, должны быть запущены службы поддержки фоновой работы приложений формата UWP\PWA. Лучше сделай меш-чат, вместо борды. Туда (в бордель) никто не придет, да и не оценят, а чятик - постоянное общение и новые мысли.
существуют ли готовые опенсорцные поисковые движки, "пауки" или "кравлеры", которые можно запустить на своём компьютере?
в гугле находится только всякая фигня типа Searx и Mojeek, которая или не является реальным поисковым движком, или которую невозможно запустить на собственном железе.
ну и миллион не поисковых движков, а просто кравлеров, которые ещё нужно допиливать, чтобы они стали поисковой системой.
единственный реальный поисковый движок, что я нагуглил - Gigablast, заброшенный проект, который не собирается даже на протухшем Debian 10 и Ubuntu 18: https://github.com/gigablast/open-source-search-engine
https://web.archive.org/web/20210126124653/http://www.gigablast.com/about.html