Size: a a a

2020 November 10

SA

Sergey Arkhipov in rannts
Тут Скрапингхаб собирается проводить свой Extract Summit где-то через час: https://www.extractsummit.io/ You are welcome
источник

SA

Sergey Arkhipov in rannts
Моя команда будет делать панельку про антибот системы. Сам я не участвую, поскольку ухожу из компании. Но вам, если интересно, советую подключиться и послушать. Из стоящих треков там еще только Legal Complience, это если в будущем придется заняться скрапингом либо как основной деятельностью, либо вспомогательной (намайнить датасетик). Остальное по желанию. Мишу еще можно послушать, если приходится часто обниматься со Scrapy
источник

VR

Victor Ryabinin in rannts
Я тут недавно обнаружил, что через вывод в поток w3m можно скрапить почти любые страницы влет, обходя множество защит от ботов
источник

SA

Sergey Arkhipov in rannts
Это довольно интересная теория)
источник

VR

Victor Ryabinin in rannts
когда я искал скрапер для одного сайта, находил только решения на селениуме, а вот w3m -dump https://url отлично забирал весь вывод страницы
источник

SA

Sergey Arkhipov in rannts
Да и курл - такой же скрапер
источник

VR

Victor Ryabinin in rannts
с курлом сначала надо исследовать как что и куда и как выдрать куки/сессии и т.д., а вот w3m забирает все без вопросов
источник

SA

Sergey Arkhipov in rannts
Если ему отдают, конечно
источник

RB

Roman Bolkhovitin in rannts
хм. я думал может w3m такой ловкий, аж в js умеет, а там куки какие-то
источник

VR

Victor Ryabinin in rannts
умеет
источник

VR

Victor Ryabinin in rannts
это же браузер
источник

VR

Victor Ryabinin in rannts
ну ок, попробуйте вытащить курлом содержимое https://9gag.com/v1/group-posts/group/
источник

VR

Victor Ryabinin in rannts
w3m делает это так w3m -dump https://9gag.com/v1/group-posts/group/
источник

VR

Victor Ryabinin in rannts
а курл даст вам страничку с js
источник

VR

Victor Ryabinin in rannts
или есть сайты, где очень много ловушек для ботов, w3m их успешно обходит
источник

VR

Victor Ryabinin in rannts
конечно, это не панацея, но как минимум попробуйте, если есть такие задачи
источник

SA

Sergey Arkhipov in rannts
Все гораздо сложнее. Говорю тебе как человек, который три с чем-то года работал в этой сфере.

W3m не умеет выполнять javascript, начнем с этого
источник

SA

Sergey Arkhipov in rannts
Далее, куча антиботов типа Variti его на пушечный выстрел ее подпустят, поскольку процент его использования очень низкий, и в основном, не для серфинга. Они его на подступах зарубят
источник

SA

Sergey Arkhipov in rannts
Я могу попозже показать пару примеров таких злых страниц
источник

VR

Victor Ryabinin in rannts
вообще очень интересная тема
источник