Телеграмм чат группы scrapy

17:39пожаловаться #9

Andrey Rahmatullin in Scrapy

только вести сет записанных урлов и проверять его

17:41пожаловаться #10

Нету. Если у тебя небольшой объем данных, тогда сохраняй post_id в set у паука и делай проверку. А так лучше бд использовать

вот такой же вопрос

17:42пожаловаться #11

Andrey Rahmatullin in Scrapy

угу

17:42пожаловаться #12

вот такой же вопрос

почитал, понял, спасибо)
но не будет ли выглядеть это как говнокод? дока скрапи сама говорит, что для проверки дубликатов нужно юзать пайплайны

17:56пожаловаться #13

Да, делай в пайплайне

17:58пожаловаться #14

Да, делай в пайплайне

а хотя, разумнее будет не через них. у меня многоходовочка, а юрл или айди я могу чекнуть в самом начале. разумнее будет отбросить будущий item в начале, чем когда уже "всё готово, тебя ждём" и тут оказывается, что айтем не подходит.
верно я рассуждаю?)

18:24пожаловаться #15

Если ты про момент до запроса, и из айди у тебя формируется url, тогда лучше там отсеять. Если же ты про калбэк и формирование итема, тогда все же лучше в пайплайне, в калбэке выиграшь скорости небольшой, но появится смешанная ответственность. Плюс пайплайн сможешь потом в других проектах использовать

18:29пожаловаться #16

хм, так разве не такой флоу как ниже?
пропустим этапы с engine, перейдём к тому моменту, когда ответ попал в паука.

ответ попал в паука -> переход по колбэкам -> yield item -> бросаем этот item в pipeline'ы -> ...

18:31пожаловаться #17

Такой

18:32пожаловаться #18

я между колбэками не делаю yield item, я собираю сначала инфу в item, а передаю между колбэками его через meta

18:32пожаловаться #19

и в итоге будет то, что я расписал. или не?)