Size: a a a

2020 June 08

EB

Elisei Badanin in Scrapy
Как селениумом обойти(они детектят что что-то не так, даже после введения каптчи) дистилнетворкс?
источник

AR

Andrey Rahmatullin in Scrapy
Дистил жестко фингерпринтит вроде
источник

EB

Elisei Badanin in Scrapy
а чем его нынче обходят? одного решения каптчи уже недостаточно?
источник

AR

Andrey Rahmatullin in Scrapy
Хотя стоп, он вроде нормально обходится паппетиром
источник

EB

Elisei Badanin in Scrapy
А паппетер только через асинкио работает?
источник

AR

Andrey Rahmatullin in Scrapy
Вроде
источник

AR

Andrey Rahmatullin in Scrapy
Либо просто в отдельном процессе
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
до yield item доходит или нет?
в общем, yield Request не перекидывает в коллбек upload_image, некоторые перекидываются, а некоторые нет. В чем может быть проблема?
image_url всегда извлекает валидный url
            image_url = item['image_url']
           self.crawler.stats.inc_value('product_pages_uploaded')
           yield Request(url=image_url, callback=self.upload_image, meta={'item': item})
источник

AR

Andrey Rahmatullin in Scrapy
дупфильтр режет например
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
дупфильтр режет например
хммм, точно. Попробую отключить сейчас
источник

AR

Andrey Rahmatullin in Scrapy
DUPEFILTER_DEBUG
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
DUPEFILTER_DEBUG
спс
источник

EB

Elisei Badanin in Scrapy
а есть какие-нибудь прокси, которые обходят дистил? кравлера например?
источник

AR

Andrey Rahmatullin in Scrapy
это нужен прокси, который внутри себя запускает puppetteer и тебе отдаёт отрендеренный результат
источник

EB

Elisei Badanin in Scrapy
ну да
источник

EB

Elisei Badanin in Scrapy
есть ли что-то подобное?
источник

EB

Elisei Badanin in Scrapy
после 2-3 запросов ип попадает в бан
источник
2020 June 09

🎱

🎱 in Scrapy
лог постоянно выдает такую стату и замерзает на несколько часов, а потом нормально кровлит опять, в чем может быть проблема?
2020-06-09 07:28:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 11 items/min)
2020-06-09 07:29:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:30:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:31:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:32:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:33:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:34:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:35:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:36:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:37:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:38:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:39:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
2020-06-09 07:40:50 [scrapy.extensions.logstats] INFO: Crawled 7099 pages (at 0 pages/min), scraped 2965 items (at 0 items/min)
источник

🎱

🎱 in Scrapy
как пробросить мету без yield request или как закинуть просто туда значение в другом методе где нет yield request а извлечь в другом где есть?
источник

AR

Andrey Rahmatullin in Scrapy
Чо
источник