Телеграмм чат группы scrapy

подскажите, плз, простую структуру, что-то я допереть не могу. У меня перед глазами есть календарь: типа вот такого: https://lj-maintenance.livejournal.com/calendar

Я хочу для начала составить JSON урлов всех постов за все годы. Соответственно, я собираю сначала все ссылки по годам:

response.xpath("//section[@class='j-l-alpha']//li/@href").extract()

Теперь, по логике мне надо собрать URL-ы всех месяцев и всех постов, которые в них. Я так понимаю, что мне надо создать ещё один спайдер, который будет запрашивать год/месяц а потом месяц/день для получения списка всех постов? Или как то по уму делается-то? В scrapebook вроде как понятно написано, но за полночи уже всё из головы выветрилось.

Livejournal

lj_maintenance

источник

09:11пожаловаться #7

🇺L

🇺🇦 Ad Libitum in Scrapy

(на xpath не обращайте внимания, он для примера)

источник

09:12пожаловаться #8

Andrey Rahmatullin in Scrapy

Нет, просто в коллбэке для лет собираешь месяцы и так далее

источник

09:12пожаловаться #9

🇺L

🇺🇦 Ad Libitum in Scrapy

есть какая-то хрень с callback но я так и не понял как ей пользоваться, третий раз доку перечитываю

источник

09:12пожаловаться #10

Andrey Rahmatullin in Scrapy

Ну вот зря не понял

источник

09:13пожаловаться #11

Andrey Rahmatullin in Scrapy

Ты находишь ссылку и возвращаешь Request с этой ссылкой, когда он скачается, выполнится указанный в нём коллбэк

источник

09:14пожаловаться #12

🇺L

🇺🇦 Ad Libitum in Scrapy

ясно. пойду посплю и на свежую голову попробую ещё раз

источник

09:16пожаловаться #13

🇺L

🇺🇦 Ad Libitum in Scrapy

спс

источник

09:16пожаловаться #14

🇺L

🇺🇦 Ad Libitum in Scrapy

ещё вопрос. а какие-то либы есть для scrapy/python позволяющие делать более приличный html из спарсенного? я имею в виду вырезание тегов, например, так, чтобы не трогались blockquote c твиттером, видео/ютубы и так далее. Это для каждого сервиса надо писать свой регексп или кто-то уже всё придумал и сделал?

источник

09:18пожаловаться #15

🇺L

🇺🇦 Ad Libitum in Scrapy

Что касается реквеста. Я запутался. Вот пример из доки: https://github.com/scrapy/quotesbot/blob/master/quotesbot/spiders/toscrape-xpath.py

В какой момент выполняется next_page_url = response.xpath('//li[@class="next"]/a/@href').extract_first()?

GitHub

scrapy/quotesbot

This is a sample Scrapy project for educational purposes - scrapy/quotesbot