24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
>>155141172 >web scraping Вот сейчас заинтересовал. Есть что-то в интернетах по поводу этой темы? ну там что это такое, что делает в широком смысле и т.д.
>>155141303 >карма-йог Тоесть желание делать что-то без признания, материальной выгоды и только с надеждой что когда нибудь зачтется это так называется?
>ленивое быдло мой левел кодинга наверное не достаточен, хотя я и не уверен. Но попытаться бы мог конечно. Когда то два раза писал прогу для себя что бы пиздить пики с двача. Ох прогером я себя чувствовал)) Но да сейчас это смешно звучит
>>155141348 Ну так я примерно так же и сказал... Ладно вопрос два, ссылки на страницы уже готовы, или программа должна сама искать все доступные ссылки?
>>155142045 Дауны советую вгеты, хотя не понимают, что 200 тысяч страниц программа будет майнить овердохуя долго. Пиши на [email protected] Я заюзаю python, подрублю пару своих выделенных впсок на асинхронных корутинах и быстренько тебе всё соберу. Стоить работа будет 3 к рублей.
>>155142278 Пфффф, я занимаюсь бд у всяких американцев, храню и админю их огромные массивы данных с кучей конфиденциальной инфы. Они мне доверяют, а какой то чел с двача нет? Нахуй мне нужны там твои документы, пусть там даже паспорта или кредитки. Я слишком честный человек, чтобы использовать это всё в корыстных целях
>>155142376 тоесть ты хочешь спиздить 200к файлов... Охуенное конечно ты нашел место что бы совета спросить, но судить не мне. Найди фриланс чела и дай задание написать прогу.
>>155142517 Если боишься за свои данные, я тебе тупо могу написать скрипт, ты запустишь его на своей стороне. Мне же тупо сбросишь пример .html страницы твоего сайта с указанием того, что ты хочешь запарсить.
>>155142517 Так тебе же ответили, берешь питон и beautifulsoup. Хотя, тебе лучше взять grab ибо под него есть документация на русском и в гугле туча примеров. http://docs.grablib.org/ru/latest/
>>155140780 >wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txt слушай, а что если сами ссылки находятся именно в коде страницы, а не открыто "на странице"
>>155142864 Если ты имеешь ввиду, что ссылка на документ генерируется в браузере жс скриптом, то работать не будет. И в таком случае тебе придется брать селениум, кстати, ты ведь и так его можешь взять, в фаерфоксе под него есть плагин с гуем. Можешь там наебенить скриптик для парсинга.
>>155141949 > не может Может. В Европке за NMAP можно сесть. Если говорить про Россию, то тебя могут посадить, если ты скачанную тобой инфу будешь перепродавать, например. Советую тебе не умничать насчет вещей, о которых совсем не знаешь.
>>155143091 >Если говорить про Россию, то тебя могут посадить, если ты скачанную тобой инфу будешь перепродавать, например. Слишком геморно и затратно, только если ОП реально таким образом кому-то сильно поднасрет. а так хоть обпарсись.
>>155142164 > Дауны Тот, про кого ты это сказал я, парсит половину интернетов с 2011 года. Ты же, ньюфажина, создашь заметную нагрузку на сервис своими асинхронными корутинами и с непростительно большой вероятностью спалишься.
Тут два путя. Первый - брать питон, брать парсер, оптимизированый на быструю работу, если ссылок много и делать. Это просто должно быть. Второй вариант - брать готовое решение. Есть много тулз для этого, они как правило связанны с иб. Например, skipfish, кажется, умеет так, как тебе нужно. Он точно справится быстро, так как специально написан для большого объема данных. Есть еще goofile. Он, кажется, на питоне написан. Задаешь ему сайт и список расширений, которые нужно искать, он выдает все ссылки.
Кстати, еще вариант, что-то с wget запилить. Это, кстати, самое простое. Читай доки по нему и юзай.
>>155143431 поиск ссылок на мэйнпейдже переход на них и с них на остальные, каждый раз сверяясь нет ли одинаковых страниц, что бы не переходить на них дважды.
>>155143216 Я увидел, что человек конкретно ошибается, и решил его поправить. Может, оно ему когда-нибудь поможет избежать суда даже. Не первый раз встречаю человека, который пытается смотреть на законы через призму какой-то своей логики.
>>155143326 Selenium - годно, но, для данной задачи, излишне. Если бы оп имел опыт работы с ним - то да, запилил бы без проблем. Но разбираться в фреймворке чтобы решить одну, конкретную задачу - такое себе.
…regex-infection will devour your HTML parser, application and existence for all time like Visual Basic only worse he comes he comes do not fight he comes, his unholy radiance destro҉ying all enlightenment, HTML tags leaking from your eyes like liquid pain, the song of regular expression parsing will extinguish the voices of mortal man from the sphere I can see it can you see it it is beautiful the final snuffing of the lies of Man ALL IS LOST ALL IS LOST the pony he comes he comes he comes the ichor permeates all MY FACE MY FACE ᵒh god no NO NOOOO NΘ stop the an*gles are not real ZALGΌ IS҉ TOƝȳ THE PONY HE COMES
>>155144086 Тред не читал, не знал, что там жс задействован. Если так, то да, селеиум или типо того придется юзать. Но если они уже есть сгенереные, то выберать что-то из этого >>155143435
>>155144777 Еще раз орнул! Покупаем кувалду и хуярим скобы в своём доме - всё OK. Надеваем на хуй лоли, берем кувалду и вламываемся в полицейский участок, размахивая кувалдой - арестовывают. >ко-ко-ко за кувалду можно сесть
>>155145823 Рад, что веселю тебя. Прости, но я не вижу смысла спорить с твоей принципиальной позицией. Можешь считать, что сразил меня своим гениальным сравнением.
>>155147636 Вот нахуй ты этот вопрос задал, скажи? По-твоему, во всех дистрибутивах всё так, как в том, который знаком тебе? Там ещё и sudo искаропки, да?
>>155148082 > спартанском Оно спартанское, если тебе пятнадцать лет и ты сидишь в /s/. Если это часть твоей работы, то тебе тяжело понять логику тех, кто подобные вопросы задает.
>>155150916 Проблема здесь в том, что, кроме тебя, такие вещи делают три с половиной инвалида в мире. Поэтому когда сталкиваешься с проблемой, в ответ на свои просьбы о помощи можешь не ждать чего-то отличного от «ну хуй знает, у меня всё работает».
>>155151019 >>155150916 И да, я действительно не люблю Windows в том числе и по религиозным соображениям, но это боль, обоснованная определенным жизненным опытом.
Разрабатывали мы одну софтину, которая собиралась под различные платформы. Сначала виндовые сборки успешно собирались на линуксе с MinGW, но потом по ряду причин пришлось сборку перенести на Винду. Бля-я-я-я, какая же это анальная боль была. Сначала попробуй установи, потом попробуй запустить так, чтобы конфиги подцепились и переменные окружения были видны, а потом попробуй добиться желаемого результата ещё. Подводные камни на каждом шаге, решений проблем Гугл не знает. Короче, не рекомендую лишний раз пытаться что-то из швабодного мирка завести под Виндой без необходимости. Избегайте этого максимально.
>>155151665 к сожалению с линуксом у нас не сложилось
драйверов на видеокарту не нашлось и в целом слишком сложная штука, не хватает нужных програм, приходится с костылями использовать, что очень не удобно
>>155151973 Нешкольник не знает наверняка, корректный ли там документ, но заранее выебывается? Сколько же вас тут умных, я хуею просто. Когда нужно быстренько на коленке слабать, регулярки — выбор успешного человека. Когда делаешь что-то всерьез и надолго, то делаешь как на пике, плачешь и тратишь часы на отлов всех возможных подводных камней на миллионах URL, но это потому что затраты окупаются.
Короче не знаю, поможет ли мой способ, но тут все просто и справится даже ребенок.
1. Сохраняешь хтмл файл внутри которого ссылка на нужный документ. 2. Выключаешь доступ в инет 3. Открываешь файл в браузере(смотри чтоб не подтянулся кеш, лучше очистить лишний раз) и ищешь эту ссылку
Далее: Если ссылка есть, нам повезло и можно использовать питоновский grab или bs.
Грабом не сложно будет найти нужный тег и извлечь значение параметра value.
Если же нужных данных нет, надо атаковать страницу seleniumом. Лучше использовать Selenium вместе с Chrome, быстрее будет.
>>155155159 Ну как бы мне абсолютно похуй что у тебя там лежит (хоть ядерные коды, блять). Ты мне заплатишь приемлемую сумму, я для тебя выкачаю ссылки. Джаст бизнес.
>>155138553 (OP) Оп, гугли Screaming Frog SEO Spider. Ключ также гуглится. Парсит в несколько потоков, работает с регулярками, делает экспорт. Можешь не благодарить.
>>155155607 >wget -r --spider -l1 -t1 -A doc http://example.com/ 2>&1 | grep -Eio http.+doc | tee docs.txt можешь пояснить что означает каждая команда?
>>155155739 Вот ты конченый, честное слово. Конченый просто. Я тебе, по сути, ещё в начале треда дал готовую команду, а ты до сих пор не разобрался.
-r — рекурсивно обойти сайт; --spider — в режиме паука, то есть не загружать файлы, а просто собирать URLы, как ты и просил; -l1 — слишком далеко не уходить вглубь сайта, настроить под себя; -t1 — количество попыток при сетевых сбоях всяких, тоже настроить под себя; -A doc — через запятую форматы интересующих файлов; 2>&1 — перенаправление stderr в stdout, потому что wget пишет в stderr всё;
Через вертикальные черточки пишутся конвейерные команды (как-то так это будет на русском, наверное, я не ебу). То есть вывод первой команды идет на ввод второй. И так далее.
grep — отсеиваем все лишнее из вывода wget -Eio — включить режим регистронезависимых (i) регулярок (E, можно было воспользоваться алиасом egrep) и выводить только подходящие подстроки (o)
tee docs.txt — клонировать вывод из терминала в файл, чтобы ты и вживую мог прогресс наблюдать, и одновременно это в файл сохранялось.
Ты какой-то дегенерат, честное слово. Анон выше где-то выебывался, что wget будет тебе все ссылки вечность скачивать. Увы, к данному моменту ты бы уже раза три успел все выкачать. Тут бутылочное горлышко — не wget, а твоя, анон, голова.
>>155156300 Запрети подниматься в родительские каталоги. --no-parent или -np.
>>155156813 Ты, вполне возможно, обосрешься и отсеешь не то, что нужно отсеять, потому что ты не понимаешь, как это работает. Двести, двести, ёбаный ты в рот, постов, а ты нихуя еще не сделал. Либо вкидывай ссылку на сайт в тред, чтобы я тебе дал полностью готовую команду и объяснил, что к чему, либо дальше жди советов долбоебов с их Питонами, крякнутыми мокрописьками и деловыми предложениями, раз ты такой отбитый.
>>155157157 > заебусь его устанавливать Охуеть, далее-далее-готово прощелкать в убунте. Тебе же им не пользоваться полноценно, а так, консольку получить. В винду та команда все равно не пролезет, даже если ты grep и tee поставишь. Плюс почти наверняка получишь кодировкопроблемы в виндовой консольке.
вот такая фигня для нескольких окон wget -r -k -l 10 -p -R jpg,css,png,js,gif,txt,swf,pdf,JPG,PNG -N -I po,ID_co --no-check-certificate https://www.site.com/
Нужно вытянуть почти с каждой страницы сайта ссылку, например, на .doc документ (она одна на каждой странице) и положить все найденные ссылки в .txt
Страниц около 200к. Как вытянуть эти ссылки относительно быстро и без "жертв"?
Сам я не программист, хз как это осуществить.