Size: a a a

2020 July 30

V

Viktor in Scrapy
Кирилл
Селениум только в самых крайних случаях, когда данные генерирует js, не подгружает, а генерирует, или очень сложные авторизации для api, которые легче от имени браузера сделать.
bs4 я бы использовал только для изменения html, в остальных проектах где скрапи слишком громоздок ставлю parsel от скрапи т.к. привык уже
'Где scrapy очень громоздок", не мог бы ты привести пример?
источник

К

Кирилл in Scrapy
Кирилл
Селениум только в самых крайних случаях, когда данные генерирует js, не подгружает, а генерирует, или очень сложные авторизации для api, которые легче от имени браузера сделать.
bs4 я бы использовал только для изменения html, в остальных проектах где скрапи слишком громоздок ставлю parsel от скрапи т.к. привык уже
ну и ещё всякие защиты которым нужен браузер
источник

ИБ

Иван Батурин... in Scrapy
табличку со страницы спарсить, скажем
источник

К

Кирилл in Scrapy
Viktor
'Где scrapy очень громоздок", не мог бы ты привести пример?
Чистый парсинг html, без его получения, или если нужна всего одна страница и с неё несколько строк данных
источник

V

Viktor in Scrapy
@trefto, @IvanBaturin, Благодарю🙏
источник

ИБ

Иван Батурин... in Scrapy
ну и bs4 достаточно быстро можно освоить вообще с нулевыми знаниями в парсинге, в интерактивном python побаловаться, сделать какую-то задачу, понять что такое селекторы, как с ними работать. Мне одной видяшки 20 минутной хватило, чтобы первый парсер написать. Потом уже когда надо обходить сайт, сохранять данные, обрабатывать  исключения - все это сочинять уже долго, гораздо проще scrapy. Зная наперед разницу, сразу бы полез в scrapy наверное без bs4.
источник

AR

Andrey Rahmatullin in Scrapy
селекторы в юпитере можно и парселом юзать
источник

AR

Andrey Rahmatullin in Scrapy
Иван Батурин
в bs4 можно на коленке что-то быстро спарсить (одну страничку например) без создания проекта, паука, просто в интерактивном python тип jupiterlab.
это тоже всё в скрапи делается, особенно учитывая scrapy shell
источник

AR

Andrey Rahmatullin in Scrapy
но кому что
источник

AR

Andrey Rahmatullin in Scrapy
суповые файнды юзучать действительно толку 0 по сравнению что с CSS, что c XPath
источник

ИБ

Иван Батурин... in Scrapy
Andrey Rahmatullin
но кому что
поэтому знал бы сразу, не трогал бы bs4 :)
источник

S

SoHard 🎄 in Scrapy
Andrey Rahmatullin
суповые файнды юзучать действительно толку 0 по сравнению что с CSS, что c XPath
Да кстати, после супа начал скрапи изучать, очень много пришлось перепривыкать
источник

ИБ

Иван Батурин... in Scrapy
Просто scrapy getting started это создание проекта, паука и т.п. А bs4 - загрузил страницу, достал данные.
источник

AR

Andrey Rahmatullin in Scrapy
угу
источник

AR

Andrey Rahmatullin in Scrapy
https://parsel.readthedocs.io/en/stable/ да, вот как раз аналог квикстарта от супа
источник

S

SoHard 🎄 in Scrapy
Везде бс рекомендуют, вот и все с него начинают
источник

МС

Михаил Синегубов... in Scrapy
Иван Батурин
ну и bs4 достаточно быстро можно освоить вообще с нулевыми знаниями в парсинге, в интерактивном python побаловаться, сделать какую-то задачу, понять что такое селекторы, как с ними работать. Мне одной видяшки 20 минутной хватило, чтобы первый парсер написать. Потом уже когда надо обходить сайт, сохранять данные, обрабатывать  исключения - все это сочинять уже долго, гораздо проще scrapy. Зная наперед разницу, сразу бы полез в scrapy наверное без bs4.
блин, а я до сих пор не могу вкурить этот суп....
сколько ни садился покопать, психовал и выпиливал нахрен его 😂
парсель чем подкупает - тупо xpath/css (я про сами селекторы)
источник

S

SoHard 🎄 in Scrapy
А когда уже надоедает копипастить одно и тоже с проекта в проект и делать костыли с потоками переходят на скрапи
источник

ИБ

Иван Батурин... in Scrapy
SoHard 🎄
А когда уже надоедает копипастить одно и тоже с проекта в проект и делать костыли с потоками переходят на скрапи
быстро надоедает... даже без потоков
источник

AR

Andrey Rahmatullin in Scrapy
в моей молодости выбор был между супом и lxml, типа lxml строже, а суп он же в честь тегсупа назван
источник