Size: a a a

2020 December 11

AR

Andrey Rahmatullin in Scrapy
погоди, он без логина не работает?
источник

AR

Andrey Rahmatullin in Scrapy
а, это только на глагне такая ерунда
источник

AR

Andrey Rahmatullin in Scrapy
но у тебя куки включены, куки с ротацией ипов не очень работают обычно %)
источник

SS

Stepan Smirnov in Scrapy
Stepan Smirnov
если отключать JS - то похоже
каптча попадается, но реже
источник

К

Кирилл in Scrapy
Stepan Smirnov
therealreal.com
после 10 запроса паук получает каптчу, ротация проксей, куки не помогают.
Что надо сделать чтобы обойти защиту? Решать каптчу?

Код:
https://pastebin.com/gjZFGs0d
Скорее всего решать. Если говорить об рекапчах и cf, то прокси, селениумы, это лиш способ повысить уровень доверия, но  они ничего не гарантируют
источник

К

Кирилл in Scrapy
Если правильно всё подобрать, то будет низкий шанс выпадения капчи, но не 0%.
источник

СТ

Семён Трояновский... in Scrapy
это не так уж дорого стоит, решать капчи
источник

СТ

Семён Трояновский... in Scrapy
сильно большой проблемы вроде нет в них
источник

К

Кирилл in Scrapy
Семён Трояновский
это не так уж дорого стоит, решать капчи
Зависит от объемов и ценности самих данных. Конечно самы идеальный вариант, это и подходящие прокси и в финале солвера воткнуть, чтоб отлавливал если таки где-то выдаст капчу, так 100% запросов можно отрабатывать. Ну или второй подход, это только прокси и ретраи
источник

AR

Andrey Rahmatullin in Scrapy
смотря сколько капч, ага
источник

СТ

Семён Трояновский... in Scrapy
ну мб, я не нарывался пока так чтоб вообще дофига их было
источник

К

Кирилл in Scrapy
Просто не все сайты позволяют бомбить через прокси, там где логиниться нужно, к примеру. Тогда точно солверы нужны
источник

СТ

Семён Трояновский... in Scrapy
и кстати, если эмулировать мобилку, тогда не ловишь рекапчи, что хорошо. по крайней мере на вк так
источник

К

Кирилл in Scrapy
Кстати логин иногда помогает. На одном сайте была постоянная капча, а после логина давало сделать 10 запросов, потом опять капча. А чтоб зарегать акк, нужно было просто почту указать, даже без подтверждения, так что любое рандомное валидное мыло давало сделать 10 запросов
источник

OS

Oleg Shleiko in Scrapy
Кирилл
Кстати логин иногда помогает. На одном сайте была постоянная капча, а после логина давало сделать 10 запросов, потом опять капча. А чтоб зарегать акк, нужно было просто почту указать, даже без подтверждения, так что любое рандомное валидное мыло давало сделать 10 запросов
Думаю после первых пару тысяч регистраций они пофиксили это))
источник

К

Кирилл in Scrapy
хз, может теперь пофиксили, но я успешно собрал 600к страниц
источник

A

AstralRomance in Scrapy
Тяну со страницы ссылку на твиттер человека.
contact_info['twitterUsername'] =  speaker_sec.xpath('.//div[@class="speaker_profiles"]//a[@class="twitter_link"]/@href').get()

В некоторых полях выходного jsona ловлю null - почему и как это отловить?
источник

S

SoHard 🎄 in Scrapy
AstralRomance
Тяну со страницы ссылку на твиттер человека.
contact_info['twitterUsername'] =  speaker_sec.xpath('.//div[@class="speaker_profiles"]//a[@class="twitter_link"]/@href').get()

В некоторых полях выходного jsona ловлю null - почему и как это отловить?
мб, потому что там пусто?
источник

A

AstralRomance in Scrapy
SoHard 🎄
мб, потому что там пусто?
Допустим. null - это тип из скрапи?
источник

S

SoHard 🎄 in Scrapy
AstralRomance
Допустим. null - это тип из скрапи?
JSON формат определяет следующие типы: null, boolean (true, false), number, string, array, object.
источник