Size: a a a

2020 December 18

МС

Михаил Синегубов... in Scrapy
я не обижаюсь :))
источник

S

Shaman89 in Scrapy
Да я вас понял
А про базы как лучше писать то сразу в бд или через файлы?
источник

К

Кирилл in Scrapy
Shaman89
Да я вас понял
А про базы как лучше писать то сразу в бд или через файлы?
Если выбирать файл+бд, то лучше сразу бд. Если важна скорость, то лучше через очередь, редис, к примеру
источник

S

Shaman89 in Scrapy
Да я тоже не обижаюсь) век живи век учись
источник

OS

Oleg Shleiko in Scrapy
Кирилл
Если выбирать файл+бд, то лучше сразу бд. Если важна скорость, то лучше через очередь, редис, к примеру
Отличный ответ, я правда рэббит использую...
источник

К

Кирилл in Scrapy
Oleg Shleiko
Отличный ответ, я правда рэббит использую...
Да, это уже модификации как с очередью работать)
источник

К

Кирилл in Scrapy
Я бы тоже выбрал рэббит
источник

OS

Oleg Shleiko in Scrapy
ну мне не столько скорость важна, сколько не потерять данные вообще
источник

OS

Oleg Shleiko in Scrapy
хотя скорость у нас и с рэббитом норма, 40 потоков с хорошими проксями мы держим до 2к успешных запросов в минуту
источник

DO

Daniil Okhlopkov in Scrapy
Лично я планирую все-все спаршенные данные класть в BigQuery, оттуда уже ETL'ить (фильтровать, дедублицировать, создвать столбцы) в меньшую бд (Postgres), к которой уже прикручивать BI (Metabase) для удобного анализа. Парсеры у меня пока маленькие.
источник

К

Кирилл in Scrapy
Daniil Okhlopkov
Лично я планирую все-все спаршенные данные класть в BigQuery, оттуда уже ETL'ить (фильтровать, дедублицировать, создвать столбцы) в меньшую бд (Postgres), к которой уже прикручивать BI (Metabase) для удобного анализа. Парсеры у меня пока маленькие.
Надеюсь ты от меньшего к большему пойдешь
источник

DO

Daniil Okhlopkov in Scrapy
Кирилл
Надеюсь ты от меньшего к большему пойдешь
ну я пока в sqlite записываю) А ETL писать через Airflow как семечки
источник

S

Shaman89 in Scrapy
Всем спасибо за пояснения
источник

М

Максим in Scrapy
Это спайдер есть такой где-то? или мне спайдер писать с использованием graphql?
источник

AR

Andrey Rahmatullin in Scrapy
второе конечно
источник

SS

Sergey Sergey in Scrapy
Михаил Синегубов
ну и я свои 5 копеек вставлю.
относительно недавно парисил валдберрис, если без записи в базу, спокойно держало 6000 рпм (так сказать, идеал). С записью 4000 рпм. Это, максимуму 50 параллельных запросов.
за сутки, получается, спокойно можно сделать ~5,7млн запросов
А подскажи, какими проксями ты пользуешься? Мобильные/обычные? Где берешь, если не секрет?
источник

SS

Sergey Sergey in Scrapy
Sergey Sergey
А подскажи, какими проксями ты пользуешься? Мобильные/обычные? Где берешь, если не секрет?
Я для яндекса и циана мобильные со сменой айпи взял, но скорость маловата, быстро их банят и потом ждешь смену айпи...
источник

МС

Михаил Синегубов... in Scrapy
файнпрокси, proxsys.io, люминатти, 4proxy - вообще, когда как.
оно же от сайта зависит, то, что подойдет для однго - совсем не факт, что подойдет для другого
источник

МС

Михаил Синегубов... in Scrapy
для яндекса попробуй proxys.io, когда то для поиска офигительно шли. 40 шт при 15 потоках каптчи с сотню за сутки набиралось
источник

SS

Sergey Sergey in Scrapy
Михаил Синегубов
для яндекса попробуй proxys.io, когда то для поиска офигительно шли. 40 шт при 15 потоках каптчи с сотню за сутки набиралось
Спасибо!
источник