Size: a a a

2020 June 05

DM

Dima Moiseenko in Scrapy
хелло,
пытаюсь создать custom extension, чтобы с помощью basic_consume(pika) брать url из очереди и передавать экземпляр Request с этим url в планировщик crawler.engine.crawl(request, spider)

может у кого-то была практика с таким?
источник

iz

izzz zzi in Scrapy
Dima Moiseenko
хелло,
пытаюсь создать custom extension, чтобы с помощью basic_consume(pika) брать url из очереди и передавать экземпляр Request с этим url в планировщик crawler.engine.crawl(request, spider)

может у кого-то была практика с таким?
В старт_юлр?
источник

AR

Andrey Rahmatullin in Scrapy
написано ж куда
источник

AR

Andrey Rahmatullin in Scrapy
пика не про редис же
источник

К

Кирилл in Scrapy
да, я что-то  не то прочитал
источник

DM

Dima Moiseenko in Scrapy
вообще вся логика такова:
- запускаю паука с extension в котором вызываю
raise DontCloseSpider()
чтобы он все время работал
- запускается scrapy команду, которая будет посылать urls с помощью pika
- а extension о котором я написал выше должен их уже принимать и создавать экземпляр Request с этим url в планировщик
вот последнее вообще не в зуб ногой ка реализовать
источник

AR

Andrey Rahmatullin in Scrapy
а в чём затык?
источник

AR

Andrey Rahmatullin in Scrapy
типа как поллить очередь изнутри экстенжена?
источник

AR

Andrey Rahmatullin in Scrapy
вообще тут кто-то уже интегрировался с пикой вроде, не знаю насколько успешно
источник

AR

Andrey Rahmatullin in Scrapy
пика деферреды-то умеет?
источник

DM

Dima Moiseenko in Scrapy
Andrey Rahmatullin
а в чём затык?
принять - принимаю url, а как добавить его в планировщик не могу понять
источник

OS

Oleg Shleiko in Scrapy
Dima Moiseenko
хелло,
пытаюсь создать custom extension, чтобы с помощью basic_consume(pika) брать url из очереди и передавать экземпляр Request с этим url в планировщик crawler.engine.crawl(request, spider)

может у кого-то была практика с таким?
Может у меня и говнопрактика, но я делаю так
1) сделал себе RabbitmqHelper и создаю его объект в свойстве паука
2) в start_requests получаю сообщение из очереди с помощью RabbitmqHelper
3) формирую на основе этого сообщения урл и в Request
источник

AR

Andrey Rahmatullin in Scrapy
Dima Moiseenko
принять - принимаю url, а как добавить его в планировщик не могу понять
но ведь в вопросе написано "crawler.engine.crawl(request, spider)"
источник

DM

Dima Moiseenko in Scrapy
Andrey Rahmatullin
но ведь в вопросе написано "crawler.engine.crawl(request, spider)"
Это я так пытаюсь сделать, но ничего не происходит, паук начал работу и просто не прекращает
источник

AR

Andrey Rahmatullin in Scrapy
Ну что не прекращает это вроде так и задумано?
источник

DM

Dima Moiseenko in Scrapy
Andrey Rahmatullin
Ну что не прекращает это вроде так и задумано?
Одна из задумок
Вторая задумка - принимать url, делать экземпляр Request с ним и отправлять в планиррвщик
источник

AR

Andrey Rahmatullin in Scrapy
ну
источник

AR

Andrey Rahmatullin in Scrapy
логи читал?
источник

DM

Dima Moiseenko in Scrapy
Andrey Rahmatullin
пика деферреды-то умеет?
умеет
источник

AC

Amber Claes in Scrapy
Здравствуйте, раньше писал на скрепи (около года назад), недавно понадобился ещё раз, но я чота охренел.
Зашёл вспомнить quickstart, а там добавили какой-то кластер с 3мя мониторами и запуском с-под докера.
1) Так ли полезны эти мониторы
2) Обязательно ли использовать кластер
3) Если уже есть паук, написанный под старой версией, на новую его можно переписать без кластера?
источник