Телеграмм чат группы scrapy

коллеги, подскажите.
Есть необходимость парсить данные с разных сайтов. Есть набор линков на нужные страницы сайтов.
Я так понимаю, что нужно написать разные парсеры под каждый ресурс, а потом передавать в нужный парсер ссылку для получения результата.
Как с архитектурной точки зрения это лучше реализовать?
Никогда в таком ключе не работал.
Пока смотрю в сторону scrapyrt, но не уверен, что это правильно.
Кто что может посоветовать или может ткнете мордой в статью или в репо подходящий)

источник

21:30пожаловаться #11

AR

Andrey Rahmatullin in Scrapy

ифами.

источник

21:30пожаловаться #12

МС

Михаил Синегубов... in Scrapy

тока не говори что по одной ссылке на каждом сайте обработать :)

источник

21:31пожаловаться #13

SS

Sergey Sergey in Scrapy

Михаил Синегубов

тока не говори что по одной ссылке на каждом сайте обработать :)

нене. пачка ссылко по каждому сайту

источник

21:31пожаловаться #14

МС

Михаил Синегубов... in Scrapy

Sergey Sergey

нене. пачка ссылко по каждому сайту

ну, похожий проект был, так что сугубо мое видение
1. ссылки хранятся в базе с полем "тип сайта"
2. куча парсеров, каждый под свой тип
3. есть стартовый скрипт. Он собирает ссылки из базы, создает списки по кажлому типу и кормит ссылки нужным парсерам

источник

21:33пожаловаться #15

МС

Михаил Синегубов... in Scrapy

обратно в базу пишутся данные одним пайпом.

источник

21:33пожаловаться #16

SS

Sergey Sergey in Scrapy

Михаил Синегубов

ну, похожий проект был, так что сугубо мое видение
1. ссылки хранятся в базе с полем "тип сайта"
2. куча парсеров, каждый под свой тип
3. есть стартовый скрипт. Он собирает ссылки из базы, создает списки по кажлому типу и кормит ссылки нужным парсерам

вот про третий пункт поподробнее. Как правильно кормить и как потом собирать данные от него

источник

21:34пожаловаться #17

МС

Михаил Синегубов... in Scrapy

сек, щас гляну как делал вообще :))

источник

21:35пожаловаться #18

SS

Sergey Sergey in Scrapy

Михаил Синегубов

сек, щас гляну как делал вообще :))

давай)

источник

21:36пожаловаться #19

МС

Михаил Синегубов... in Scrapy

а не, я жестоко обманул
1. скрипт по очереди запускает паука, они сами забирают нужные ссылки из базы. Параллельное выполнение, там была какая то заморочка с последовательностью, то ли с банами, то ли еще с чем.
2. паук уже выбирает нудные ссылки и отдает данные в пайп для записи в базу

источник

21:38пожаловаться #20