Телеграмм чат группы scrapy

Нужно вытащить все ссылки на товары со страницы. Известно, что в нужных ссылках точно будет какая то строка и больше нигде она повторяться не будет.
Есть ли смысл настраивать селекторы, если можно простыми проверками удалить неподходящие ссылки?

источник

12:38пожаловаться #4

SS

Stepan Smirnov in Scrapy

И как такой подход оценивается с точки зрения best practises?

источник

12:39пожаловаться #5

МС

Михаил Синегубов... in Scrapy

если ты ТОЧНО можешь опознать товары/католог/пагинацию. И надо пройти ВСЕ.
то в 99% случаев, это лучше через CrawlSpider с рулесами делать

источник

12:56пожаловаться #6

iz

izzz zzi in Scrapy

Ну только дольше будет

источник

13:09пожаловаться #7

YK

Yaroslav Kuntsevych in Scrapy

#outstaff #Vacancy #Ukraine #Remote #Scraping #data mining #scrappy #python

Добрый день, коллеги!

Есть работа для Data Scraping / Mining Engineer на долгосрочный проект на аутстаф/remote:

Нужен инженер для data scraping собирать, хранить, анализировать данные в промышленых масштабах:
- количество продуктов / статей измеряется миллионами. Отпимизация скорости, мультипоточность и тд
- Инструменты для авторизации, сессии, cookie, sharedObejct
- обход ограничений, подмена юзерагентов, IP, сокс листы
- Алгоритмы классификации уникального контента, дубликаты, ре-посты
- участие в разработке агрегаторов listing ресурсов, таких как недвиживость, прайс листы
- Опыт работы с e-comerce системами
- Организация структур данных и хранилищ в больших объемах
- Spark/PySpark, ETL and data curation, AWS Services, PostrgeSQL.

Проект предусматривает сбор и анализ информации с различных торговых площадок.
Долгосрочно, remote.

Прошу писать в skype: y.kuntsevych

источник

15:21пожаловаться #8

🎱

🎱 in Scrapy

подскажите, что не так.
Пытаюсь в шелле посмотреть response как страничку view(response)
страница открывается в таком виде, css стили не подгружаются, в чем может быть проблема?

с другими сайтами все ок.

источник

16:35пожаловаться #9

🎱

🎱 in Scrapy

источник

16:35пожаловаться #10

МС

Михаил Синегубов... in Scrapy

1. не помню как оно называется, но некоторые ссылки требуют открытия череж вебсервер (хоть через локалхост)
2. пути могут быть относительные
3. оно может с помощью JS как то изментяься

источник

16:41пожаловаться #11

AR

Andrey Rahmatullin in Scrapy

🎱

подскажите, что не так.
Пытаюсь в шелле посмотреть response как страничку view(response)
страница открывается в таком виде, css стили не подгружаются, в чем может быть проблема?

с другими сайтами все ок.

ну посмотри где эти стили должны лежать

источник

16:56пожаловаться #12

AR

Andrey Rahmatullin in Scrapy

так-то оно проставляет <base> чтоб грузило с сайта, но это не универсально

источник

16:56пожаловаться #13

OS

Oleg Shleiko in Scrapy

Товарищи знатоки, с версии 2.0 появился cb_kwargs который я использую для передачи данных в callback. Теперь появилась необходимость обрабатывать ошибки в errback, как туда пробросить данные (по логике должен быть eb_kwargs, но такого нет)

источник

17:00пожаловаться #14

🎱

🎱 in Scrapy

Andrey Rahmatullin

ну посмотри где эти стили должны лежать

посмотрел, а дальше?

источник

17:01пожаловаться #15

AR

Andrey Rahmatullin in Scrapy

🤷‍♂️

источник

17:01пожаловаться #16

AR

Andrey Rahmatullin in Scrapy

Oleg Shleiko

Товарищи знатоки, с версии 2.0 появился cb_kwargs который я использую для передачи данных в callback. Теперь появилась необходимость обрабатывать ошибки в errback, как туда пробросить данные (по логике должен быть eb_kwargs, но такого нет)

хм, видимо никак

источник

17:03пожаловаться #17

AR

Andrey Rahmatullin in Scrapy

можешь тикет сделать

источник

17:03пожаловаться #18

🎱

🎱 in Scrapy

class = c-list  list-sub-product-item

подскажите плз, как написать css селектор если в названии класса пробел?

 response.css('div.c-list.list-sub-product-item')

так работает, но правильно ли экранировать пробел точкой.
В доке про этот момент не нашел, либо не внимательно смотрел

источник

17:50пожаловаться #19

AR

Andrey Rahmatullin in Scrapy

не бывает пробелов в названиях классов, пробел разделяет их

источник

18:00пожаловаться #20