Телеграмм чат группы scrapy

Size: a a a

Scrapy

2020 June 22

всем привет
подскажите как с помощью beautifulsoup вытащить атрибут

width
<img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/8/80/Obsidienne_biface_ethiopie.jpg/250px-Obsidienne_biface_ethiopie.jpg" decoding="async" class="thumbimage" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/8/80/Obsidienne_biface_ethiopie.jpg/375px-Obsidienne_biface_ethiopie.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/8/80/Obsidienne_biface_ethiopie.jpg 2x" data-file-width="400" data-file-height="482" width="250" height="301">

soup.findAll({'img': 'thumbimage', 'attrs': 'width'})

- вот так пробую но чет не то

soup.find(class_='thumbimage').get('width')

источник

13:18пожаловаться #1

Alex in Scrapy

SoHard 🎄

soup.find(class_='thumbimage').get('width')

спасибо, работает
только 1 элемент находит
soup.find_all(class_='thumbimage').get('width') - а вот так ошибка

спасибо, работает
только 1 элемент находит
soup.find_all(class_='thumbimage').get('width') - а вот так ошибка

ты получил список тэгов и пытаешься из списка .get('width')

источник

13:21пожаловаться #3

SoHard 🎄 in Scrapy

логично что будет ошибка

источник

13:21пожаловаться #4

ИБ

Иван Батурин... in Scrapy

soup.find_all(class_='thumbimage')[0].get('width') или циклом, если их много

источник

13:28пожаловаться #5

ИБ

Иван Батурин... in Scrapy

ну или примерно так (если нужен именно всего один тэг) soup.select_one('img.thumbimage::attr(width)')

источник

13:29пожаловаться #6

Andrii in Scrapy

https://docs.scrapy.org/en/latest/topics/selectors.html

Andrii in Scrapy

Alex in Scrapy

спасибо

источник

13:35пожаловаться #9

SoHard 🎄 in Scrapy

Andrii

у него же bs

источник

13:48пожаловаться #10

Arzhaan Martan in Scrapy

Alex

Ребят а кто то парсил авито?
Или гиблое дело и не стоит тратить время и силы)

я парсил. парсишь через их мобильную версию m.avito.ru, ответы приходят джейсончиками. но нужно при себе иметь хорошие прокси. иначе это гиблое дело. у них защита очень хитрая. нужно разобраться как работает их защита изнутри, там скажем риверс инженирингом заняться. но нужен чел с очень глубоким знанием javascript.

источник

19:05пожаловаться #11

Alex in Scrapy

Arzhaan Martan

да я уже заколхозил через их полную версию паука)
все работает вроде как и задумывал

источник

19:08пожаловаться #12

Arzhaan Martan in Scrapy

Dr. Bot

парсили, парсят и будут парсить. scrapy + selenium + разумные лимиты. работает как часы

selenium - оверхед. не нужно задрачиваться с дополнительными слоями абстракциями. и так тормознутый scrapy/python поверх ещё слой. лучше чистые json'чики парсь.

источник

19:08пожаловаться #13

Arzhaan Martan in Scrapy

Alex

да я уже заколхозил через их полную версию паука)
все работает вроде как и задумывал

через что парсил? selenium?

источник

19:11пожаловаться #14

Alex in Scrapy

да

источник

19:11пожаловаться #15