Size: a a a

2020 March 01

🇺L

🇺🇦 Ad Libitum in Scrapy
Andrey Rahmatullin
Записи одинаковые?
нет двух, одна только такая.
источник

AR

Andrey Rahmatullin in Scrapy
ничо не понял
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
ладно, пофигу, все равно уже по-другому сделал, убрал for
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
чот у меня всё кривое скорее всего выходит.
источник

AR

Andrey Rahmatullin in Scrapy
код нормально выглядит
источник

AR

Andrey Rahmatullin in Scrapy
выглядел
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
подскажите, плз, простую структуру, что-то я допереть не могу. У меня перед глазами есть календарь: типа вот такого: https://lj-maintenance.livejournal.com/calendar

Я хочу для начала составить JSON урлов всех постов за все годы. Соответственно, я собираю сначала все ссылки по годам:
response.xpath("//section[@class='j-l-alpha']//li/@href").extract()


Теперь, по логике мне надо собрать URL-ы всех месяцев и всех постов, которые в них. Я так понимаю, что мне надо создать ещё один спайдер, который будет запрашивать год/месяц а потом месяц/день для получения списка всех постов? Или как то по уму делается-то? В scrapebook вроде как понятно написано, но за полночи уже всё из головы выветрилось.
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
(на xpath не обращайте внимания, он для примера)
источник

AR

Andrey Rahmatullin in Scrapy
Нет, просто в коллбэке для лет собираешь месяцы и так далее
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
есть какая-то хрень с callback но я так и не понял как ей пользоваться, третий раз доку перечитываю
источник

AR

Andrey Rahmatullin in Scrapy
Ну вот зря не понял
источник

AR

Andrey Rahmatullin in Scrapy
Ты находишь ссылку и возвращаешь Request с этой ссылкой, когда он скачается, выполнится указанный в нём коллбэк
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
ясно. пойду посплю и на свежую голову попробую ещё раз
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
спс
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
ещё вопрос. а какие-то либы есть для scrapy/python позволяющие делать более приличный html из спарсенного? я имею в виду вырезание тегов, например, так, чтобы не трогались blockquote c твиттером, видео/ютубы и так далее. Это для каждого сервиса надо писать свой регексп или кто-то уже всё придумал и сделал?
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
Что касается реквеста. Я запутался. Вот пример из доки: https://github.com/scrapy/quotesbot/blob/master/quotesbot/spiders/toscrape-xpath.py

В какой момент выполняется next_page_url = response.xpath('//li[@class="next"]/a/@href').extract_first()?
источник

AR

Andrey Rahmatullin in Scrapy
в этом примере нет недефолтных коллбэков
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
когда кончился for()
источник

AR

Andrey Rahmatullin in Scrapy
да, когда кончился for,  а что?
источник

🇺L

🇺🇦 Ad Libitum in Scrapy
блин, может вообще не заморачиваться, а чисто по хардкору прописать for 2012 to 2020 и подставлять в domain.com/{url}
источник