Size: a a a

2021 February 14

i

i in Scrapy
Marat Mkhitaryan
Мне нужно несколько миллионов страниц пропарсить за день. Для этого надо системы очередей использовать? Я думаю сначала накидать в очереди сообщения по 1000 ссылок на парсинг в каждом. Потом парсеры будут забирать и парсить. Но на сервере очередей может памяти не хватить, нужно докидывать ссылки по ходу парсинга или как лучше сделать?
Поищи в этом чате по цифре 1000, про то как ссылки скармливать спайдеру, недавно только разбирали, даже куски кода набрасывались.
источник

A

Andrii in Scrapy
Marat Mkhitaryan
Мне нужно несколько миллионов страниц пропарсить за день. Для этого надо системы очередей использовать? Я думаю сначала накидать в очереди сообщения по 1000 ссылок на парсинг в каждом. Потом парсеры будут забирать и парсить. Но на сервере очередей может памяти не хватить, нужно докидывать ссылки по ходу парсинга или как лучше сделать?
А сервер потянет отдать 1млн?
источник

МС

Михаил Синегубов... in Scrapy
Andrii
А сервер потянет отдать 1млн?
1 млн в сутки, это 700 рпм. А чё бы и нет?
источник

МС

Михаил Синегубов... in Scrapy
Не гарантия, но и ничего прям из ряда вон
источник

A

Andrii in Scrapy
Ну смотря что за сайт, у меня и на 500/мин елементов в 1 паук сервак умерал
источник

A

Andrii in Scrapy
🙄
источник

МС

Михаил Синегубов... in Scrapy
Andrii
Ну смотря что за сайт, у меня и на 500/мин елементов в 1 паук сервак умерал
Ну, все мо быть
источник

MM

Marat Mkhitaryan in Scrapy
Andrii
А сервер потянет отдать 1млн?
Поэтому думаю как то через систему очередей сделать
источник

MM

Marat Mkhitaryan in Scrapy
И несколько серверов чтоб парсили
источник

К

Кирилл in Scrapy
Marat Mkhitaryan
И несколько серверов чтоб парсили
тебе говорят что Их сервер может не справиться, а не твой
источник

H

Harsh in Scrapy
500 request per minute, ~8 per second. It's much imo.

What concurrent request and download delay do you guys prefer?
источник

A

Andrii in Scrapy
Marat Mkhitaryan
Поэтому думаю как то через систему очередей сделать
А почему контейнеризацию не использовать, думаю воркеров 10 мож легко поднять
источник

К

Кирилл in Scrapy
Harsh
500 request per minute, ~8 per second. It's much imo.

What concurrent request and download delay do you guys prefer?
autothrottle
источник

MM

Marat Mkhitaryan in Scrapy
Andrii
А почему контейнеризацию не использовать, думаю воркеров 10 мож легко поднять
Проблема в размере канала 1 сервера же
источник

H

Harsh in Scrapy
Кирилл
autothrottle
That's good.
источник

AR

Andrey Rahmatullin in Scrapy
источник

AR

Andrey Rahmatullin in Scrapy
Думаю, может опросник сделать и сюда кинуть
источник

К

Кирилл in Scrapy
Andrey Rahmatullin
Думаю, может опросник сделать и сюда кинуть
Давай
источник

AR

Andrey Rahmatullin in Scrapy
Гуглоформы?
источник

К

Кирилл in Scrapy
Смотря какой формат опроса, если что-то простое и не нужно синхронизировать с ответами из других источников, то можно и телеграмом обойтись, а если сложнее то гуглоформы
источник