Size: a a a

2020 July 16

t

tfhx8 in Scrapy
источник

t

tfhx8 in Scrapy
я так понимаю спайдеры должны быть одинаковыми? Получается они в процессе между собой будут знать на какие страницы уже ходили, а на какие нет?
источник

AR

Andrey Rahmatullin in Scrapy
никто ничо знать не будет
источник

AR

Andrey Rahmatullin in Scrapy
а если у тебя работа с селениумом синхронная, то и running-multiple-spiders-in-the-same-process не поможет с этим никак
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
а если у тебя работа с селениумом синхронная, то и running-multiple-spiders-in-the-same-process не поможет с этим никак
что ты в этом случае подразумеваешь под синхронностью? Приме задачи с хромом, можешь назвать?
источник

AR

Andrey Rahmatullin in Scrapy
под синхронностью я понимаю захват управления и не отдачу его твистеду
источник

t

tfhx8 in Scrapy
Еще заметил такое, если сканировать большой ресурс, то со временем начинаются тормаза и сканирование идет медленно. Оущещние, что он проверяет текущий урл среди уже отсканированных и поэтому так долго. Или что-то другое?
источник

AR

Andrey Rahmatullin in Scrapy
проверяет текущий урл среди уже отсканированных - почти константа, там же хэш
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
под синхронностью я понимаю захват управления и не отдачу его твистеду
Вообще мне нужно так. Подать список большой урлов и чтобы они открывались паралельно в хроме и отдавать html, далее я обрабатывал html и складывал данные
источник

AR

Andrey Rahmatullin in Scrapy
нужно именно хром? сплеш не подходит?
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
проверяет текущий урл среди уже отсканированных - почти константа, там же хэш
тогда по всей видимости, возможно сайт режит скорость
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
нужно именно хром? сплеш не подходит?
да хром, там бывают ресурсы хитрожопые, стоят всякие антидетекты ботов, включают капчу итп. Тоесть мне хром нужен для того чтобы капчу решать и делать антидетект
источник

AR

Andrey Rahmatullin in Scrapy
и как ты хромом решаешь капчу?
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
и как ты хромом решаешь капчу?
планировал через отправку данных капчи сервису по апи
источник

AR

Andrey Rahmatullin in Scrapy
а хром зачем тогда
источник

AR

Andrey Rahmatullin in Scrapy
причём апи тоже синхронное, поди
источник

t

tfhx8 in Scrapy
+ надо проксей несколько десятков, чтобы они между запущенными экземплярами ка кто синхронизировались. В плане, чтобы ранее спользованный пока не брался
источник

t

tfhx8 in Scrapy
Andrey Rahmatullin
причём апи тоже синхронное, поди
апи до сервиса антикапчи? Тут пофигу как им отправлять видимо, главное чтобы текущая страница не закрылась в хроме
источник

t

tfhx8 in Scrapy
вроде бы часто встречающаеся задача, но ничего в опенсоурсе не нашел
источник

A

Andrii in Scrapy
Какая?
источник