Size: a a a

2020 July 30

AR

Andrey Rahmatullin in Scrapy
а щас вон бс4 юзает lxml, притом чуть ли не по дефолту
источник

МС

Михаил Синегубов... in Scrapy
SoHard 🎄
Везде бс рекомендуют, вот и все с него начинают
ну, я в свое время читал "умную" статью, в которой авторизации учили по принципу "смотрие код страницы" и все. Снифер - та ну нах... 🙃
источник

S

SoHard 🎄 in Scrapy
Andrey Rahmatullin
а щас вон бс4 юзает lxml, притом чуть ли не по дефолту
Lxml самый быстрый в супе
источник

SS

Sergey Sergey in Scrapy
Супом парсил большие сайты, писал многопоточность, многостраничность обходил и т д. А потом поизучал scrapy) Этот мир перестал быть прежним)
источник

МС

Михаил Синегубов... in Scrapy
Sergey Sergey
Супом парсил большие сайты, писал многопоточность, многостраничность обходил и т д. А потом поизучал scrapy) Этот мир перестал быть прежним)
скажи лучше - познал боль "нахера же я х...ней страдал" 😂
источник

SS

Sergey Sergey in Scrapy
Михаил Синегубов
скажи лучше - познал боль "нахера же я х...ней страдал" 😂
все так)
источник

S

SoHard 🎄 in Scrapy
Михаил Синегубов
скажи лучше - познал боль "нахера же я х...ней страдал" 😂
Я перед скрапи думал перейти с реквестов на aiohttp чтобы не городить многопоток
источник

S

SoHard 🎄 in Scrapy
Но пронесло
источник

МС

Михаил Синегубов... in Scrapy
не, ну прям для супермегабольшого проекта, я бы выбрал чистый самопис. Все же будет и по шустрее и надежнее.
источник

V

Viktor in Scrapy
Sergey Sergey
Супом парсил большие сайты, писал многопоточность, многостраничность обходил и т д. А потом поизучал scrapy) Этот мир перестал быть прежним)
Жесть)
источник

SS

Sergey Sergey in Scrapy
коллеги, подскажите.
Есть необходимость парсить данные с разных сайтов. Есть набор линков на нужные страницы сайтов.
Я так понимаю, что нужно написать разные парсеры под каждый ресурс, а потом передавать в нужный парсер ссылку для получения результата.
Как с архитектурной точки зрения это лучше реализовать?
Никогда в таком ключе не работал.
Пока смотрю в сторону scrapyrt, но не уверен, что это правильно.
Кто что может посоветовать или может ткнете мордой в статью или в репо подходящий)
источник

AR

Andrey Rahmatullin in Scrapy
ифами.
источник

МС

Михаил Синегубов... in Scrapy
тока не говори что по одной ссылке на каждом сайте обработать :)
источник

SS

Sergey Sergey in Scrapy
Михаил Синегубов
тока не говори что по одной ссылке на каждом сайте обработать :)
нене. пачка ссылко по каждому сайту
источник

МС

Михаил Синегубов... in Scrapy
Sergey Sergey
нене. пачка ссылко по каждому сайту
ну, похожий проект был, так что сугубо мое видение
1. ссылки хранятся в базе с полем "тип сайта"
2. куча парсеров, каждый под свой тип
3. есть стартовый скрипт. Он собирает ссылки из базы, создает списки по кажлому типу и кормит ссылки нужным парсерам
источник

МС

Михаил Синегубов... in Scrapy
обратно в базу пишутся данные одним пайпом.
источник

SS

Sergey Sergey in Scrapy
Михаил Синегубов
ну, похожий проект был, так что сугубо мое видение
1. ссылки хранятся в базе с полем "тип сайта"
2. куча парсеров, каждый под свой тип
3. есть стартовый скрипт. Он собирает ссылки из базы, создает списки по кажлому типу и кормит ссылки нужным парсерам
вот про третий пункт поподробнее. Как правильно кормить и как потом собирать данные от него
источник

МС

Михаил Синегубов... in Scrapy
сек, щас гляну как делал вообще :))
источник

SS

Sergey Sergey in Scrapy
Михаил Синегубов
сек, щас гляну как делал вообще :))
давай)
источник

МС

Михаил Синегубов... in Scrapy
а не, я жестоко обманул
1. скрипт по очереди запускает паука, они сами забирают нужные ссылки из базы. Параллельное выполнение, там была какая то заморочка с последовательностью, то ли с банами, то ли еще с чем.
2. паук уже выбирает нудные ссылки и отдает данные в пайп для записи в базу
источник