Телеграмм чат группы scrapy

У меня вообще 2 варианта в голове.
Первый это использовать inmemory хранилище типа redis, импортировать туда все записи, и по 1 доставать. Но тогда теряется отказоустойчивость.
Второй, это брать по 100 записей, менять статус на running, вытащить данные, поставить complete. В случае закрытия паука я потом продолжу с того-же места

Примерно такая же задача стоит. Но я планировал через редис с двумя базами решать. База с урлами вся и база с куда ложить пройденные урлы

источник

10:25пожаловаться #9

П

Пастырь in Scrapy

Такое же решение подойдет ?

источник

11:17пожаловаться #10

К

Кирилл in Scrapy

Пастырь

Такое же решение подойдет ?

В общих чертах, да

источник

11:18пожаловаться #11

К

Кирилл in Scrapy

Пастырь

У меня вообще 2 варианта в голове.
Первый это использовать inmemory хранилище типа redis, импортировать туда все записи, и по 1 доставать. Но тогда теряется отказоустойчивость.
Второй, это брать по 100 записей, менять статус на running, вытащить данные, поставить complete. В случае закрытия паука я потом продолжу с того-же места

Не надо ин мемори, 7кк это достаточно много для оперативки. Рэдис умеет и на жесткий диск сбрасывать для стабильности, но не надо с этим морочиться, лучше обычную бд

источник

11:35пожаловаться #12

П

Пастырь in Scrapy

1. spider_idle забирает 100 записей из бд, меняет статус на proccess
2. Pipeline по завершению работы по урлу меняет статус на complete

Верно ?

источник

11:36пожаловаться #13

К

Кирилл in Scrapy

Пастырь

1. spider_idle забирает 100 записей из бд, меняет статус на proccess
2. Pipeline по завершению работы по урлу меняет статус на complete

Верно ?

Норм. Только подумай как ты будешь сбрасывать process если запрос зафейлится

источник

11:39пожаловаться #14

П

Пастырь in Scrapy

А я не буду. статус поставлю fail и ручками посмотрю :D

источник

11:40пожаловаться #15

К

Кирилл in Scrapy

Ну я про смену статуса и говорю) чтоб у тебя не зависли запросы

источник

11:41пожаловаться #16

П

Пастырь in Scrapy

SELECT * FROM table WHERE status = pending
ORDER BY id DESC LIMIT 100

источник

11:42пожаловаться #17

МС

Михаил Синегубов... in Scrapy

Пастырь

1. spider_idle забирает 100 записей из бд, меняет статус на proccess
2. Pipeline по завершению работы по урлу меняет статус на complete

Верно ?

1. какое "по завершению работы", может по размеру пула?
2. бери больше 100 (ну, кроме стадии отладки), хотя бы 1000 записей. По ощущениям, spider_idle возникает когда скачана и обработана последняя ссылка. Скорость, при размере блока 100 ссылок, сильно пострадает. Я бы, на 7кк вообще тысяч по 50-100 забирал

источник

12:43пожаловаться #18

П

Пастырь in Scrapy

Михаил Синегубов

1. какое "по завершению работы", может по размеру пула?
2. бери больше 100 (ну, кроме стадии отладки), хотя бы 1000 записей. По ощущениям, spider_idle возникает когда скачана и обработана последняя ссылка. Скорость, при размере блока 100 ссылок, сильно пострадает. Я бы, на 7кк вообще тысяч по 50-100 забирал

У меня примерно 7кк ссылок в базе. Приму к сведению, спасибо!

источник

12:44пожаловаться #19

П

Пастырь in Scrapy

А не может возникнуть проблема с асинхронностью ? Допустим в один момент времени выдернется 2 раза по 50к одинаковых ссылок ?

источник

12:45пожаловаться #20