Телеграмм чат группы scrapy

ну так и селектор другой

ну так и селектор другой

там а это и есть link

13:00пожаловаться #2

тебе виднее

13:00пожаловаться #3

между a и a ::attr(href) тоже в общем-то разница есть

13:01пожаловаться #4

но вообще "не сматчилось" опровергают проверкой результата, а не доказательствами что вот эти два селектора одно и то же матчат

13:02пожаловаться #5

response.css('.title-cell a::attr(href)').getall()

есть ссылки в шелле
response.follow_all(response.css('.title-cell a::attr(href)').getall() .... паук не заходит по ссылкам

13:03пожаловаться #6

этот код вообще ошибку выдаст

13:03пожаловаться #7

а, ты yield from не делаешь, просто вызываешь что ли

бляя

а чо ж нет никаких ошибок

13:04пожаловаться #10

каких ошибок ты ждёшь? ты вызвал функцию

13:05пожаловаться #11

ну и надо ж понимать что выполняются только реквесты которые вернули из коллбэка

13:06пожаловаться #12

да, это как обычно моя невнимательность

13:06пожаловаться #13

спасибо)

13:06пожаловаться #14

Кирилл in Scrapy

Загляни в исходник этого метода, там даже можно сразу селекторы передавать

13:11пожаловаться #15

Кирилл in Scrapy

Ну и в тайпе пишут, что отдаёт генератор

13:12пожаловаться #16

Кирилл

Загляни в исходник этого метода, там даже можно сразу селекторы передавать

да, я так и делаю, ссылки тыкал когда не мог понять почему не работает

13:12пожаловаться #17

ildar in Scrapy

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲

я чё спрашиваю
планирую писать около десяти парсеров, хочу к какому-то виду одному придерживаться

Даже начиная с того, что в xpath надо div[[@class="product-info"] а в css писать в 2 раза меньше, в духе ".product-info"
Поэтому я предпочитаю css, а если к примеру надо вытащить html-комменты, такого я для css вот не находил, тут уже заводится шарманка xpath

14:10пожаловаться #18

[@class="product-info"] ещё и не универсально нихрена

Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.

14:12пожаловаться #19

Stepan Smirnov in Scrapy

Пытаюсь скачать файлы c okkjemi.no (ссылки на файлы есть в коде)

Ссылка на паука который вызывает пайплайн на скачивание файла
https://pastebin.com/qhf9u395

Ссылка на сам пайплайн
https://pastebin.com/qhXqTigN

Проблема - сайт не отдает файлы, как остальные. Файлы скачиваются пустыми (по 1 КБ)
Заметил, что если очистить куки - то в ручном режиме тоже будет ошибка при попытке открыть pdf.
Предварительный заход на сайт для получения куки не решил проблемы.

Что нужно поправить чтобы код начал скачивать файлы?

Pastebin

download_pdfs - Pastebin.com