Size: a a a

2020 July 17

S

SoHard 🎄 in Scrapy
Andrey Rahmatullin
а из колбэков другие реквесты создавались?
нет, start_urls на главную, а дальше parse с циклом  после которого последний метод
источник

S

SoHard 🎄 in Scrapy
хех, может еще проблема что не один я решил сайт спарсить)
источник

S

SoHard 🎄 in Scrapy
сайт упал SQLSTATE[HY000] [1203] User boomer_new-oleh already has more than 'max_user_connections' active connections
источник

S

SoHard 🎄 in Scrapy
boomer_new-oleh задудосил
источник

V

Viktor in Scrapy
Апхахаххахахах
источник

RC

Ravi Chavare in Scrapy
Any one implemented spalsh within scrapy?
источник

К

Кирилл in Scrapy
almost everyone
источник

К

Кирилл in Scrapy
источник

N

Nick Name in Scrapy
привет. детский вопрос, такой же, как и этот, тоесть как мне не записывать дубликаты по урлу например? создавать пайплайн или мидлварь, где будет типа
if item['url'] in csv_file:
   дубликат, обрабатываем
?
источник

AR

Andrey Rahmatullin in Scrapy
только вести сет записанных урлов и проверять его
источник

К

Кирилл in Scrapy
Кирилл
Нету. Если у тебя небольшой объем данных, тогда сохраняй post_id в set  у паука и делай проверку. А так лучше бд использовать
вот такой же вопрос
источник

AR

Andrey Rahmatullin in Scrapy
угу
источник

N

Nick Name in Scrapy
Кирилл
вот такой же вопрос
почитал, понял, спасибо)
но не будет ли выглядеть это как говнокод? дока скрапи сама говорит, что для проверки дубликатов нужно юзать пайплайны
источник

К

Кирилл in Scrapy
Да, делай в пайплайне
источник

N

Nick Name in Scrapy
Кирилл
Да, делай в пайплайне
а хотя, разумнее будет не через них. у меня многоходовочка, а юрл или айди я могу чекнуть в самом начале. разумнее будет отбросить будущий item в начале, чем когда уже "всё готово, тебя ждём" и тут оказывается, что айтем не подходит.
верно я рассуждаю?)
источник

К

Кирилл in Scrapy
Если ты про момент до запроса, и из айди у тебя формируется url, тогда лучше там отсеять. Если же ты про калбэк и формирование итема, тогда все же лучше в пайплайне,  в калбэке выиграшь скорости небольшой, но появится смешанная ответственность. Плюс пайплайн сможешь потом в других проектах использовать
источник

N

Nick Name in Scrapy
Кирилл
Если ты про момент до запроса, и из айди у тебя формируется url, тогда лучше там отсеять. Если же ты про калбэк и формирование итема, тогда все же лучше в пайплайне,  в калбэке выиграшь скорости небольшой, но появится смешанная ответственность. Плюс пайплайн сможешь потом в других проектах использовать
хм, так разве не такой флоу как ниже?
пропустим этапы с engine, перейдём к тому моменту, когда ответ попал в паука.
ответ попал в паука -> переход по колбэкам -> yield item -> бросаем этот item в pipeline'ы -> ...
источник

К

Кирилл in Scrapy
Такой
источник

N

Nick Name in Scrapy
я между колбэками не делаю yield item, я собираю сначала инфу в item, а передаю между колбэками его через meta
источник

N

Nick Name in Scrapy
и в итоге будет то, что я расписал. или не?)
источник