Size: a a a

2020 May 26

A

Alex in Scrapy
ildar
Ха, помнится ко мне подкатили с предложением попарсить сайт беркли с лимитом 8 по домену и на 1 линк "наружу". Где-то на втором миллионе страниц я начал что-то подозревать ^_^
а что именно начал подозревать?)
можно по подробней
источник

A

Alex in Scrapy
мне как новичку просто интересно)
источник

i

ildar in Scrapy
что он сцук огромный, притом ветвится во все стороны, в т.ч. "назад" через петли, по-итогу dupefilter малость подзашивается и чем дальше парсишь - тем меньше новых страниц
источник

i

ildar in Scrapy
и емнип формально такие странички не добавляют depth - он же по-факту не идет туда. просто как припадочный волчком по клетке бегает с воплями "выпустите меня, выпустите меня!"
источник

МС

Михаил Синегубов... in Scrapy
ildar
и емнип формально такие странички не добавляют depth - он же по-факту не идет туда. просто как припадочный волчком по клетке бегает с воплями "выпустите меня, выпустите меня!"
😂, про волчка - до слез....
я бы такое через базу делал. Тем более, когда счет на миллионы идет
источник

i

ildar in Scrapy
плюс начинают срабатывать баны, и как я понял у разных поддоменов этого универа разные админы, и каждый там мутит во что горазд. кто-то сразу "пабашке" дает, кто-то грит "обожди"
источник

i

ildar in Scrapy
ну я там в итоге получил примерно шо заказчик хотел и подзабил. выхлоп был 1 страница чтоли к 1000 толи к  500 пробежек по лабиринту этих
источник
2020 May 27

AV

Andrei Volkau in Scrapy
Просьба подтолкнуть на мысль как проще всего можно извлечь " Tom and Ray Magliozzi"  (использую BeautifulSoup)
При таком селекторе получается множество лишних вариантов по которым нужно впоследствии итерировать чтобы выбрать лучший. Неужели это и есть самый простой способ?
page_soup.findAll('div', {"class":"col-md-12 col-sm-12 col-xs-12"})

Ссылка: podsearch.com/listing/car-talk.html
источник

AV

Andrei Volkau in Scrapy
источник

s

smeshny 🏍🏂🥽🏋️‍♂️... in Scrapy
Andrei Volkau
/html/body/main/div/div/div/div/div/div/div/div[1]/article/div[2]/div[1]/span/following-sibling::text()
источник

s

smeshny 🏍🏂🥽🏋️‍♂️... in Scrapy
я бы xpath применял бы)

только не знаю как его хэндлить в бс4 но наверняка можно
источник

AV

Andrei Volkau in Scrapy
smeshny 🏍🏂🥽🏋️‍♂️
я бы xpath применял бы)

только не знаю как его хэндлить в бс4 но наверняка можно
Тоже пока не знаю. Надеюсь можно. Спасибо большое, сейчас попробую!
источник

МС

Михаил Синегубов... in Scrapy
Andrei Volkau
Просьба подтолкнуть на мысль как проще всего можно извлечь " Tom and Ray Magliozzi"  (использую BeautifulSoup)
При таком селекторе получается множество лишних вариантов по которым нужно впоследствии итерировать чтобы выбрать лучший. Неужели это и есть самый простой способ?
page_soup.findAll('div', {"class":"col-md-12 col-sm-12 col-xs-12"})

Ссылка: podsearch.com/listing/car-talk.html
//strong[contains(text(), "Host:")]/../text()
источник

AV

Andrei Volkau in Scrapy
Михаил Синегубов
//strong[contains(text(), "Host:")]/../text()
Это через xpath я так понимаю?
источник

МС

Михаил Синегубов... in Scrapy
Andrei Volkau
Это через xpath я так понимаю?
да
источник

МС

Михаил Синегубов... in Scrapy
источник

s

smeshny 🏍🏂🥽🏋️‍♂️... in Scrapy
Михаил Синегубов
//strong[contains(text(), "Host:")]/../text()
жиир)
пошел читать книжку по xpath
источник

МС

Михаил Синегубов... in Scrapy
а, не, ща найду bs+xpath
источник

МС

Михаил Синегубов... in Scrapy
не, не  найду, там как то при инициализации, вроде, надо настроить.
я просто BS никогда не использовал :)
источник

AV

Andrei Volkau in Scrapy
В любом случае, спасибо большое за xpath

Буду пробывать bs4 c xpath подружить!
источник