Телеграмм чат группы scrapy

from parsel import Selector
sess = requests.Session()
r = sess.get(url, headers=headers, cookies=cookies)
sel = Selector(r.text)
sel.css('#firstname::text').get()
download_file_link = sel.css('a[download="insales_all.csv"]::attr(href)').get()

источник

11:21пожаловаться #5

i

ildar in Scrapy

вот те код, для примера, также ты можешь писать sel.xpath(бла-бла

источник

11:21пожаловаться #6

AV

Andrei Volkau in Scrapy

ildar

from parsel import Selector
sess = requests.Session()
r = sess.get(url, headers=headers, cookies=cookies)
sel = Selector(r.text)
sel.css('#firstname::text').get()
download_file_link = sel.css('a[download="insales_all.csv"]::attr(href)').get()

Спаибо большое, сейчас попробую

источник

11:22пожаловаться #7

i

ildar in Scrapy

и еще сразу либу html_text рекомендую, в ней можно будет обойтись без ::text, ей просто передаешь результат .get(), и она обычно довольно хорошо вытаскивает любой текст из какой-то области, а если плохо- ну там уже можно с frozendict повозиться, чтоб определить, что является переводом строки и прочее, в доках все описано, работает как-то так (здесь response это можно считать тоже шо и sel в предыдущем примере)
breadcrumbs = html_text.extract_text(response.css('.cpt_product_category_info').get())

источник

11:25пожаловаться #8

AV

Andrei Volkau in Scrapy

Достал что хотел через parsel и css selector подсказанный selector гаджетом. Сейчас вот тооько думаю, а не плохой ли у меня код получится раз я в нем часть полей через parsel буду извлеать и часть через bs4. Возможно тогда лучше будет все через что-то одно

источник

11:29пожаловаться #9

AR

Andrey Rahmatullin in Scrapy

конечно через что-то одно

источник

11:29пожаловаться #10

AV

Andrei Volkau in Scrapy

Жадь конечено что у bs4 проблемы с xpath (пока не знаю как подружить) и кроме того bs4 не способен потреблять сss селекторы типа 'h2+ .col-xs-12 span'. А так библитоке очень хоршая для сначинающих.
Если не найду способа все таки подружиьт bs4 с xpath как нибудь быстро, то видимо parsel самый лучший вараинт. Всем большое спасибо!

источник

11:33пожаловаться #11

i

ildar in Scrapy

Andrei Volkau

Достал что хотел через parsel и css selector подсказанный selector гаджетом. Сейчас вот тооько думаю, а не плохой ли у меня код получится раз я в нем часть полей через parsel буду извлеать и часть через bs4. Возможно тогда лучше будет все через что-то одно

вот эта html_text либа в свое время мне очень помогла через некоторое время после перехода на скрапи, ну, когда я ее нашел, т.к. иногда текст извлечь не так просто, там всякие span когда внутри и переносы строк. А она работает примерно как bs'ный get_text(), даже лучше подключив ее я в итоге про bs забыл вообще

источник

11:35пожаловаться #12

s

smeshny 🏍🏂🥽🏋️‍♂️... in Scrapy

Andrei Volkau

Жадь конечено что у bs4 проблемы с xpath (пока не знаю как подружить) и кроме того bs4 не способен потреблять сss селекторы типа 'h2+ .col-xs-12 span'. А так библитоке очень хоршая для сначинающих.
Если не найду способа все таки подружиьт bs4 с xpath как нибудь быстро, то видимо parsel самый лучший вараинт. Всем большое спасибо!

причисляю себя к начинающим
тратил до этого время на bs4 пока не начал разобраться как работает scrapy.

жалею время потраченное на бс4)

источник

11:35пожаловаться #13

x\

xal.py \-_-/ in Scrapy

работаю с бс4 даже при использовании скрепи

источник

11:36пожаловаться #14

i

ildar in Scrapy

да, ты думаешь типа уууу скрапи - это сцук сложно. А в итоге когда у тебя парсер из 30 строк превращается в 10 - это очень круто

источник

11:36пожаловаться #15

x\

xal.py \-_-/ in Scrapy

это у вас проблемы если с бсом не смогли совладать

источник

11:36пожаловаться #16

x\

xal.py \-_-/ in Scrapy

ildar

да, ты думаешь типа уууу скрапи - это сцук сложно. А в итоге когда у тебя парсер из 30 строк превращается в 10 - это очень круто

у меня ваш код из 10 строк помещается в 3

источник

11:37пожаловаться #17

i

ildar in Scrapy

не верю (с)

источник

11:38пожаловаться #18

i

ildar in Scrapy

я кстати как-то писал, что вот, с yield from и follow_all теперь лишнюю строчку приходится писать для объявы переменной, чтобы сразу понимать по чему итерируется. В итоге с питоном 3.8 нашел такой выход, правда pycharm жалуется что она нигде не используется, но зато теперь все понятно:
https://i.imgur.com/mQruphW.png

источник

11:58пожаловаться #19

x\

xal.py \-_-/ in Scrapy

ildar

не верю (с)

Твоё дело

источник

11:59пожаловаться #20