Size: a a a

2020 May 27

x\

xal.py \-_-/ in Scrapy
Единственный плюс для меня в скрепи это проксирование
источник

x\

xal.py \-_-/ in Scrapy
Автоматическое
источник

SS

Stepan Smirnov in Scrapy
вопрос
источник

SS

Stepan Smirnov in Scrapy
Нужно вытащить все ссылки на товары со страницы. Известно, что в нужных ссылках точно будет какая то строка и больше нигде она повторяться не будет.
Есть ли смысл настраивать селекторы, если можно простыми проверками удалить неподходящие ссылки?
источник

SS

Stepan Smirnov in Scrapy
И как такой подход оценивается с точки зрения best practises?
источник

МС

Михаил Синегубов... in Scrapy
если ты ТОЧНО можешь опознать товары/католог/пагинацию. И надо пройти ВСЕ.
то в 99% случаев, это лучше через CrawlSpider с рулесами делать
источник

iz

izzz zzi in Scrapy
Ну только дольше будет
источник

YK

Yaroslav Kuntsevych in Scrapy
#outstaff #Vacancy #Ukraine #Remote #Scraping #data mining #scrappy #python

Добрый день, коллеги!

Есть работа для Data Scraping / Mining Engineer на долгосрочный проект на аутстаф/remote:

Нужен инженер для data scraping собирать, хранить, анализировать данные в промышленых масштабах:
- количество продуктов / статей измеряется миллионами. Отпимизация скорости, мультипоточность и тд
- Инструменты для авторизации, сессии, cookie, sharedObejct
- обход ограничений, подмена юзерагентов, IP, сокс листы
- Алгоритмы классификации уникального контента, дубликаты, ре-посты
- участие в разработке агрегаторов listing ресурсов, таких как недвиживость, прайс листы
- Опыт работы с e-comerce системами
- Организация структур данных и хранилищ в больших объемах
- Spark/PySpark, ETL and data curation, AWS Services, PostrgeSQL.

Проект предусматривает сбор и анализ информации с различных торговых площадок.
Долгосрочно, remote.

Прошу писать в skype: y.kuntsevych
источник

🎱

🎱 in Scrapy
подскажите, что не так.
Пытаюсь в шелле посмотреть response как страничку view(response)
страница открывается в таком виде, css стили не подгружаются, в чем может быть проблема?

с другими сайтами все ок.
источник

🎱

🎱 in Scrapy
источник

МС

Михаил Синегубов... in Scrapy
1. не помню как оно называется, но некоторые ссылки требуют открытия череж вебсервер (хоть через локалхост)
2. пути могут быть относительные
3. оно может с помощью JS  как то изментяься
источник

AR

Andrey Rahmatullin in Scrapy
🎱
подскажите, что не так.
Пытаюсь в шелле посмотреть response как страничку view(response)
страница открывается в таком виде, css стили не подгружаются, в чем может быть проблема?

с другими сайтами все ок.
ну посмотри где эти стили должны лежать
источник

AR

Andrey Rahmatullin in Scrapy
так-то оно проставляет <base> чтоб грузило с сайта, но это не универсально
источник

OS

Oleg Shleiko in Scrapy
Товарищи знатоки, с версии 2.0 появился cb_kwargs который я использую для передачи данных в callback. Теперь появилась необходимость обрабатывать ошибки в errback, как туда пробросить данные (по логике должен быть eb_kwargs, но такого нет)
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
ну посмотри где эти стили должны лежать
посмотрел, а дальше?
источник

AR

Andrey Rahmatullin in Scrapy
🤷‍♂️
источник

AR

Andrey Rahmatullin in Scrapy
Oleg Shleiko
Товарищи знатоки, с версии 2.0 появился cb_kwargs который я использую для передачи данных в callback. Теперь появилась необходимость обрабатывать ошибки в errback, как туда пробросить данные (по логике должен быть eb_kwargs, но такого нет)
хм, видимо никак
источник

AR

Andrey Rahmatullin in Scrapy
можешь тикет сделать
источник

🎱

🎱 in Scrapy
class = c-list  list-sub-product-item 
подскажите плз, как написать css  селектор если в названии класса пробел?
 response.css('div.c-list.list-sub-product-item')
так работает, но правильно ли экранировать пробел точкой.
В доке про этот момент не нашел, либо не внимательно смотрел
источник

AR

Andrey Rahmatullin in Scrapy
не бывает пробелов в названиях классов, пробел разделяет их
источник