Телеграмм чат группы scrapy

Лично я планирую все-все спаршенные данные класть в BigQuery, оттуда уже ETL'ить (фильтровать, дедублицировать, создвать столбцы) в меньшую бд (Postgres), к которой уже прикручивать BI (Metabase) для удобного анализа. Парсеры у меня пока маленькие.

источник

14:16пожаловаться #10

Кирилл in Scrapy

Daniil Okhlopkov

Надеюсь ты от меньшего к большему пойдешь

источник

14:18пожаловаться #11

Daniil Okhlopkov in Scrapy

Кирилл

Надеюсь ты от меньшего к большему пойдешь

ну я пока в sqlite записываю) А ETL писать через Airflow как семечки

источник

14:18пожаловаться #12

Shaman89 in Scrapy

Всем спасибо за пояснения

источник

14:21пожаловаться #13

Максим in Scrapy

Andrey Rahmatullin

graphql

Это спайдер есть такой где-то? или мне спайдер писать с использованием graphql?

источник

15:44пожаловаться #14

Andrey Rahmatullin in Scrapy

второе конечно

источник

15:44пожаловаться #15

Sergey Sergey in Scrapy

Михаил Синегубов

ну и я свои 5 копеек вставлю.
относительно недавно парисил валдберрис, если без записи в базу, спокойно держало 6000 рпм (так сказать, идеал). С записью 4000 рпм. Это, максимуму 50 параллельных запросов.
за сутки, получается, спокойно можно сделать ~5,7млн запросов

А подскажи, какими проксями ты пользуешься? Мобильные/обычные? Где берешь, если не секрет?

источник

15:44пожаловаться #16

Sergey Sergey in Scrapy

Sergey Sergey

А подскажи, какими проксями ты пользуешься? Мобильные/обычные? Где берешь, если не секрет?

Я для яндекса и циана мобильные со сменой айпи взял, но скорость маловата, быстро их банят и потом ждешь смену айпи...

источник

15:46пожаловаться #17

МС

Михаил Синегубов... in Scrapy

файнпрокси, proxsys.io, люминатти, 4proxy - вообще, когда как.
оно же от сайта зависит, то, что подойдет для однго - совсем не факт, что подойдет для другого

источник

15:46пожаловаться #18

МС

Михаил Синегубов... in Scrapy

для яндекса попробуй proxys.io, когда то для поиска офигительно шли. 40 шт при 15 потоках каптчи с сотню за сутки набиралось

источник

15:47пожаловаться #19

Sergey Sergey in Scrapy

Михаил Синегубов

Спасибо!

источник

15:47пожаловаться #20