Size: a a a

2020 September 11

m

mr.slavik in MediaTube HCF
меня например за 1 запрос в 20 минут забанил по ip
через пару суток
cloudflare
источник

D

Das waren gute Zeite... in MediaTube HCF
На Ютубе?
источник

m

mr.slavik in MediaTube HCF
downdetector
парсил страничку со сбоями телеги
и выводил в онлайн статус
источник

АМ

Александр Матвеев... in MediaTube HCF
ну с банами проще разобраться
источник

АМ

Александр Матвеев... in MediaTube HCF
прокси \ юзерагенты
источник

m

mr.slavik in MediaTube HCF
так я раз в 20 минут
это не то чтобы часто
чаще - быстрее ба нашли
там надо рандомизировать время запросов
и тд
чтобы они не были повторяющиеся
если есть какаянить защита
источник

АМ

Александр Матвеев... in MediaTube HCF
рандом(1, 333)
источник

m

mr.slavik in MediaTube HCF
ну опять же - если столкнешься
как правило все крупные сервисы защищаются от парсинга
с разной успешностью
источник

АМ

Александр Матвеев... in MediaTube HCF
у меня эиуляция открытого окна
источник

АМ

Александр Матвеев... in MediaTube HCF
селениум + вебдрайвер
источник

m

mr.slavik in MediaTube HCF
Переслано от Andrew Boiko
в современном парсинге конечно главная проблема это процессорное время, надо получается загрузить целеком весь сайт (html, css, картинки, js) потом исполнить весь JS и CSS, потом спарсить получившийся DOM
источник

АМ

Александр Матвеев... in MediaTube HCF
понапихали проверок
источник

m

mr.slavik in MediaTube HCF
ну это умышленно кстати
источник

m

mr.slavik in MediaTube HCF
на всяких там барахолках и тд
у кого база их это основная ценность
источник

m

mr.slavik in MediaTube HCF
делают чтобы для получения страницы приходилось тратить процессорное время
источник

АМ

Александр Матвеев... in MediaTube HCF
что бы парсинг дорогой был?
источник

m

mr.slavik in MediaTube HCF
можно просто было пихать майнер
источник

m

mr.slavik in MediaTube HCF
Александр Матвеев
что бы парсинг дорогой был?
да
источник

m

mr.slavik in MediaTube HCF
загружаешь страничку - немного хешей перебираешь)
источник

m

mr.slavik in MediaTube HCF
mr.slavik
Переслано от Andrew Boiko
в современном парсинге конечно главная проблема это процессорное время, надо получается загрузить целеком весь сайт (html, css, картинки, js) потом исполнить весь JS и CSS, потом спарсить получившийся DOM
еще при этом у тебя страница получается каждый раз разная немного
источник