Size: a a a

2020 June 22

S

SoHard 🎄 in Scrapy
Alex
всем привет
подскажите как с помощью beautifulsoup вытащить атрибут width
<img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/8/80/Obsidienne_biface_ethiopie.jpg/250px-Obsidienne_biface_ethiopie.jpg" decoding="async" class="thumbimage" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/8/80/Obsidienne_biface_ethiopie.jpg/375px-Obsidienne_biface_ethiopie.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/8/80/Obsidienne_biface_ethiopie.jpg 2x" data-file-width="400" data-file-height="482" width="250" height="301">

soup.findAll({'img': 'thumbimage', 'attrs': 'width'})
- вот так пробую но чет не то
soup.find(class_='thumbimage').get('width')
источник

A

Alex in Scrapy
SoHard 🎄
soup.find(class_='thumbimage').get('width')
спасибо, работает
только 1 элемент находит
soup.find_all(class_='thumbimage').get('width') - а вот так ошибка
источник

S

SoHard 🎄 in Scrapy
Alex
спасибо, работает
только 1 элемент находит
soup.find_all(class_='thumbimage').get('width') - а вот так ошибка
ты получил список тэгов и пытаешься из списка .get('width')
источник

S

SoHard 🎄 in Scrapy
логично что будет ошибка
источник

ИБ

Иван Батурин... in Scrapy
soup.find_all(class_='thumbimage')[0].get('width') или циклом, если их много
источник

ИБ

Иван Батурин... in Scrapy
ну или примерно так (если нужен именно всего один тэг) soup.select_one('img.thumbimage::attr(width)')
источник

A

Andrii in Scrapy
источник

A

Andrii in Scrapy
источник

A

Alex in Scrapy
спасибо
источник

S

SoHard 🎄 in Scrapy
Andrii
у него же bs
источник

AM

Arzhaan Martan in Scrapy
Alex
Ребят а кто то парсил авито?
Или гиблое дело и не стоит тратить время и силы)
я парсил. парсишь через их мобильную версию m.avito.ru, ответы приходят джейсончиками. но нужно при себе иметь хорошие прокси. иначе это гиблое дело. у них защита очень хитрая. нужно разобраться как работает их защита изнутри, там скажем риверс инженирингом заняться. но нужен чел с очень глубоким знанием javascript.
источник

A

Alex in Scrapy
Arzhaan Martan
я парсил. парсишь через их мобильную версию m.avito.ru, ответы приходят джейсончиками. но нужно при себе иметь хорошие прокси. иначе это гиблое дело. у них защита очень хитрая. нужно разобраться как работает их защита изнутри, там скажем риверс инженирингом заняться. но нужен чел с очень глубоким знанием javascript.
да я уже заколхозил через их полную версию паука)
все работает вроде как и задумывал
источник

AM

Arzhaan Martan in Scrapy
Dr. Bot
парсили, парсят и будут парсить. scrapy + selenium + разумные лимиты. работает как часы
selenium - оверхед. не нужно задрачиваться с дополнительными слоями абстракциями. и так тормознутый scrapy/python поверх ещё слой. лучше чистые json'чики парсь.
источник

AM

Arzhaan Martan in Scrapy
Alex
да я уже заколхозил через их полную версию паука)
все работает вроде как и задумывал
через что парсил? selenium?
источник

A

Alex in Scrapy
да
источник

AM

Arzhaan Martan in Scrapy
Alex
да
чё? комп мощный что ли?
источник

A

Alex in Scrapy
та нет, виртуальная машина)
источник

iz

izzz zzi in Scrapy
Alex
да я уже заколхозил через их полную версию паука)
все работает вроде как и задумывал
15 лет будешь парсить ?)
источник

AM

Arzhaan Martan in Scrapy
и сколько напарсил авито? не блочили хоть?
источник

A

Alex in Scrapy
izzz zzi
15 лет будешь парсить ?)
я с прокси еще не пробовал
но в 1 поток впринципе норм
источник