Ха, помнится ко мне подкатили с предложением попарсить сайт беркли с лимитом 8 по домену и на 1 линк "наружу". Где-то на втором миллионе страниц я начал что-то подозревать ^_^
а что именно начал подозревать?) можно по подробней
что он сцук огромный, притом ветвится во все стороны, в т.ч. "назад" через петли, по-итогу dupefilter малость подзашивается и чем дальше парсишь - тем меньше новых страниц
и емнип формально такие странички не добавляют depth - он же по-факту не идет туда. просто как припадочный волчком по клетке бегает с воплями "выпустите меня, выпустите меня!"
и емнип формально такие странички не добавляют depth - он же по-факту не идет туда. просто как припадочный волчком по клетке бегает с воплями "выпустите меня, выпустите меня!"
😂, про волчка - до слез.... я бы такое через базу делал. Тем более, когда счет на миллионы идет
плюс начинают срабатывать баны, и как я понял у разных поддоменов этого универа разные админы, и каждый там мутит во что горазд. кто-то сразу "пабашке" дает, кто-то грит "обожди"
Просьба подтолкнуть на мысль как проще всего можно извлечь " Tom and Ray Magliozzi" (использую BeautifulSoup) При таком селекторе получается множество лишних вариантов по которым нужно впоследствии итерировать чтобы выбрать лучший. Неужели это и есть самый простой способ? page_soup.findAll('div', {"class":"col-md-12 col-sm-12 col-xs-12"})
Просьба подтолкнуть на мысль как проще всего можно извлечь " Tom and Ray Magliozzi" (использую BeautifulSoup) При таком селекторе получается множество лишних вариантов по которым нужно впоследствии итерировать чтобы выбрать лучший. Неужели это и есть самый простой способ? page_soup.findAll('div', {"class":"col-md-12 col-sm-12 col-xs-12"})