Телеграмм чат группы scrapy

вопрос только насколько этот селектолах совместим с lxml

23:40пожаловаться #1

VB

Vladyslav Babych in Scrapy

а так, про миграцию, ты по-идее можешь реализовать наверное этот ::text, может быть даже тупо стырить его с parsel, или где-то в области работы с lxml подсунуть ему этот селехтолах

parsel для css селектора делает преобразование в xpath и дальше им юзается

23:40пожаловаться #2

i

Parsel lets you extract data from XML/HTML documents using XPath or CSS selectors - scrapy/parsel

а если тут вот для начала попробовать подсунуть https://github.com/scrapy/parsel/blob/master/parsel/selector.py

GitHub

scrapy/parsel

23:45пожаловаться #3

i

там вроде с html.HTMLParser относительно from lxml import html

23:46пожаловаться #4

i

а вот про etree непонятно.

23:46пожаловаться #5

VB

Vladyslav Babych in Scrapy

Может транслятор можно подсунуть как-то?

23:47пожаловаться #6

i

еще про ускорение - если у тебя 50 селекторов, попробуй их выставить так, чтобы постепенно отсекать лишние части, т.е. к примеру если ты взял breadcrumbs, и дальше тебе надо брать описание товара справа, то часть дерева с картинками слева, breadcrumbs, футер страницы и меню тебе уже не нужно, ты можешь присвоить условно
breadcrumbs = response.css('blabla')
right_part = response.css('.right_part')
price = right_part.css('.price')

23:49пожаловаться #7

A

Archie in Scrapy

еще про ускорение - если у тебя 50 селекторов, попробуй их выставить так, чтобы постепенно отсекать лишние части, т.е. к примеру если ты взял breadcrumbs, и дальше тебе надо брать описание товара справа, то часть дерева с картинками слева, breadcrumbs, футер страницы и меню тебе уже не нужно, ты можешь присвоить условно
breadcrumbs = response.css('blabla')
right_part = response.css('.right_part')
price = right_part.css('.price')

типо так запрос на сайт уже не делается а просто парсиш з уже предыдущего респонса?

23:55пожаловаться #8

i

ээ, ну обычно там и так реквест новый на каждый чих делать не надо. Это скорее к тому, что парселю не надо по всему стояку дом-дерева бултыхаться чтобы вытащить одну цену

23:57пожаловаться #9

i

или ты хочешь сказать, что на каждое поле айтема делаешь новый запрос???

23:58пожаловаться #10

2020 June 25

A

Archie in Scrapy

или ты хочешь сказать, что на каждое поле айтема делаешь новый запрос???

а хотя нет, я например в цикле ж беру один запрос и по нему делаю что надо, тоесть все селекторы были получаеться за один запрос к сайту

00:00пожаловаться #11

i

да, хотя я не удивлюсь, если это хреновая оптимизация, потому-что я вот сейчас в коде parsel увидел lru_cache, т.е. оно кеширует запросы какой-то там функции, и если вдруг этот кеш сохраняется между вызовами на верхнем уровне, то эта оптимизация наоборот будет вредна

00:00пожаловаться #12

A

Archie in Scrapy

да, хотя я не удивлюсь, если это хреновая оптимизация, потому-что я вот сейчас в коде parsel увидел lru_cache, т.е. оно кеширует запросы какой-то там функции, и если вдруг этот кеш сохраняется между вызовами на верхнем уровне, то эта оптимизация наоборот будет вредна

в scrapy нету кеширования?

00:01пожаловаться #13

i

есть, я не про это, я про то, что там в коде parsel есть https://docs.python.org/3.3/library/functools.html#functools.lru_cache
но я хз чего он там делает)

00:03пожаловаться #14

К

Кирилл in Scrapy

И что тебя смущает в lru_cache?

00:11пожаловаться #15

i

меня ничего, я просто не смотрел для чего именно он там используется, пойду гляну)

00:13пожаловаться #16

К

Кирилл in Scrapy

Еще не встречал чтоб кэш где-то что-то замедлял

00:15пожаловаться #17

i

посмотрел, он там только на трансляции из css в xpath используется

00:16пожаловаться #18

i

ээээ. так я и не говорил, что он что-то замедляет, я всеми руками за него обычно)

00:16пожаловаться #19

i

"хреновая оптимизация" это я говорил про свое предложение "отсекать" ненужные участки DOM, если вдруг lru_cache и так кеширует условный путь до конечного селектора