Телеграмм чат группы scrapy

therealreal.com
после 10 запроса паук получает каптчу, ротация проксей, куки не помогают.
Что надо сделать чтобы обойти защиту? Решать каптчу?

Код:
https://pastebin.com/gjZFGs0d

Скорее всего решать. Если говорить об рекапчах и cf, то прокси, селениумы, это лиш способ повысить уровень доверия, но они ничего не гарантируют

источник

16:49пожаловаться #5

Кирилл in Scrapy

Если правильно всё подобрать, то будет низкий шанс выпадения капчи, но не 0%.

источник

16:50пожаловаться #6

СТ

Семён Трояновский... in Scrapy

это не так уж дорого стоит, решать капчи

источник

16:52пожаловаться #7

СТ

Семён Трояновский... in Scrapy

сильно большой проблемы вроде нет в них

это не так уж дорого стоит, решать капчи

Зависит от объемов и ценности самих данных. Конечно самы идеальный вариант, это и подходящие прокси и в финале солвера воткнуть, чтоб отлавливал если таки где-то выдаст капчу, так 100% запросов можно отрабатывать. Ну или второй подход, это только прокси и ретраи

источник

16:54пожаловаться #9

Andrey Rahmatullin in Scrapy

смотря сколько капч, ага

источник

16:55пожаловаться #10

СТ

Семён Трояновский... in Scrapy

ну мб, я не нарывался пока так чтоб вообще дофига их было

источник

16:56пожаловаться #11

Кирилл in Scrapy

Просто не все сайты позволяют бомбить через прокси, там где логиниться нужно, к примеру. Тогда точно солверы нужны

источник

16:57пожаловаться #12

СТ

Семён Трояновский... in Scrapy

и кстати, если эмулировать мобилку, тогда не ловишь рекапчи, что хорошо. по крайней мере на вк так

источник

16:57пожаловаться #13

Кирилл in Scrapy

Кстати логин иногда помогает. На одном сайте была постоянная капча, а после логина давало сделать 10 запросов, потом опять капча. А чтоб зарегать акк, нужно было просто почту указать, даже без подтверждения, так что любое рандомное валидное мыло давало сделать 10 запросов

источник

17:19пожаловаться #14

Oleg Shleiko in Scrapy

Кирилл

Думаю после первых пару тысяч регистраций они пофиксили это))

источник

17:21пожаловаться #15

Кирилл in Scrapy

хз, может теперь пофиксили, но я успешно собрал 600к страниц

источник

17:21пожаловаться #16

AstralRomance in Scrapy

Тяну со страницы ссылку на твиттер человека.

contact_info['twitterUsername'] =  speaker_sec.xpath('.//div[@class="speaker_profiles"]//a[@class="twitter_link"]/@href').get()

В некоторых полях выходного jsona ловлю null - почему и как это отловить?

источник

17:38пожаловаться #17

SoHard 🎄 in Scrapy

AstralRomance

Тяну со страницы ссылку на твиттер человека.

contact_info['twitterUsername'] =  speaker_sec.xpath('.//div[@class="speaker_profiles"]//a[@class="twitter_link"]/@href').get()

В некоторых полях выходного jsona ловлю null - почему и как это отловить?

мб, потому что там пусто?

источник

17:41пожаловаться #18

AstralRomance in Scrapy

SoHard 🎄

мб, потому что там пусто?

Допустим. null - это тип из скрапи?

источник

17:43пожаловаться #19

SoHard 🎄 in Scrapy

AstralRomance

Допустим. null - это тип из скрапи?

JSON формат определяет следующие типы: null, boolean (true, false), number, string, array, object.

источник

17:44пожаловаться #20