Телеграмм чат группы scrapy

если я правильно понимаю то у сайтов enu.kz и fit.enu.kz разная структура, соответственно заходишь вначале на enu.kz, достаешь оттуда ссылку на каждый факультет и вызываешь отдельную функцию колбек для обработки страницы факультета (вот они уже вроде однотипные)

источник

15:55пожаловаться #12

Gulnur Gunur in Scrapy

колбак в Rule надо прописать и отдельно прописать метод для нее?

источник

16:00пожаловаться #13

Andrey Rahmatullin in Scrapy

Zack!?

Вот например пайплайн
https://dpaste.org/E4YN
А вот трейс
https://dpaste.org/DUMB

ну там написано где проблема, в aiomysql

источник

16:06пожаловаться #14

Boris Litvyakov in Scrapy

Boris Litvyakov

хз я никогда не пользовался linkextractor, мне кажется это не тот случай когда он нужен. не надо пытаться сделать универсальную функцию обработчик, раз у тебя сайты разные то и обработчики отдельно надо

что-то типа

start_urls = ['enu.kz']

def parse(self, response):
faculty_links = response.xpath(...)
for url in faculty_links:
yield scrapy.Request(url, callback = process_faculty)

def process_faculty(self, response):
do_smth

ну общая схема такая а там смотри по ситуации смотря что тебе в итоге надо, если надо зайти на определенную страницу на сайте факультета то соответственно делаешь отдельный обработчик для этой страницы

источник

16:07пожаловаться #15

i in Scrapy

прикольно, callback в rule таки в кавычках: https://docs.scrapy.org/en/latest/topics/spiders.html#crawlspider-example

источник

16:08пожаловаться #16

Andrey Rahmatullin in Scrapy

ну да, а как его ещё ловить? рул - атрибут класса, как и методы

источник

16:08пожаловаться #17

Andrey Rahmatullin in Scrapy

т.е. методов в этом месте ещё нет, и селфа нет