Телеграмм чат группы scrapy_python страница 1579

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

488 membersпожаловаться на группу

2020 May 26

A

Ха, помнится ко мне подкатили с предложением попарсить сайт беркли с лимитом 8 по домену и на 1 линк "наружу". Где-то на втором миллионе страниц я начал что-то подозревать ^_^

а что именно начал подозревать?)
можно по подробней

источник

13:39пожаловаться #1

A

мне как новичку просто интересно)

источник

13:40пожаловаться #2

i

ildar in Scrapy

что он сцук огромный, притом ветвится во все стороны, в т.ч. "назад" через петли, по-итогу dupefilter малость подзашивается и чем дальше парсишь - тем меньше новых страниц

источник

13:41пожаловаться #3

i

ildar in Scrapy

и емнип формально такие странички не добавляют depth - он же по-факту не идет туда. просто как припадочный волчком по клетке бегает с воплями "выпустите меня, выпустите меня!"

источник

13:43пожаловаться #4

МС

Михаил Синегубов... in Scrapy

и емнип формально такие странички не добавляют depth - он же по-факту не идет туда. просто как припадочный волчком по клетке бегает с воплями "выпустите меня, выпустите меня!"

😂, про волчка - до слез....
я бы такое через базу делал. Тем более, когда счет на миллионы идет

источник

13:45пожаловаться #5

i

ildar in Scrapy

плюс начинают срабатывать баны, и как я понял у разных поддоменов этого универа разные админы, и каждый там мутит во что горазд. кто-то сразу "пабашке" дает, кто-то грит "обожди"

источник

13:45пожаловаться #6

i

ildar in Scrapy

ну я там в итоге получил примерно шо заказчик хотел и подзабил. выхлоп был 1 страница чтоли к 1000 толи к 500 пробежек по лабиринту этих

источник

13:47пожаловаться #7

2020 May 27

AV

Andrei Volkau in Scrapy

Просьба подтолкнуть на мысль как проще всего можно извлечь " Tom and Ray Magliozzi" (использую BeautifulSoup)
При таком селекторе получается множество лишних вариантов по которым нужно впоследствии итерировать чтобы выбрать лучший. Неужели это и есть самый простой способ?
page_soup.findAll('div', {"class":"col-md-12 col-sm-12 col-xs-12"})

Ссылка: podsearch.com/listing/car-talk.html

источник

11:03пожаловаться #8

AV

Andrei Volkau in Scrapy

источник

11:03пожаловаться #9

s

smeshny 🏍🏂🥽🏋️‍♂️... in Scrapy

Andrei Volkau

/html/body/main/div/div/div/div/div/div/div/div[1]/article/div[2]/div[1]/span/following-sibling::text()

источник

11:07пожаловаться #10

s

smeshny 🏍🏂🥽🏋️‍♂️... in Scrapy

я бы xpath применял бы)

только не знаю как его хэндлить в бс4 но наверняка можно

источник

11:08пожаловаться #11

AV

Andrei Volkau in Scrapy

smeshny 🏍🏂🥽🏋️‍♂️

я бы xpath применял бы)

только не знаю как его хэндлить в бс4 но наверняка можно

Тоже пока не знаю. Надеюсь можно. Спасибо большое, сейчас попробую!

источник

11:09пожаловаться #12

МС

Михаил Синегубов... in Scrapy

Andrei Volkau

Просьба подтолкнуть на мысль как проще всего можно извлечь " Tom and Ray Magliozzi" (использую BeautifulSoup)
При таком селекторе получается множество лишних вариантов по которым нужно впоследствии итерировать чтобы выбрать лучший. Неужели это и есть самый простой способ?
page_soup.findAll('div', {"class":"col-md-12 col-sm-12 col-xs-12"})

Ссылка: podsearch.com/listing/car-talk.html

//strong[contains(text(), "Host:")]/../text()

источник

11:09пожаловаться #13

AV

Andrei Volkau in Scrapy

Михаил Синегубов

//strong[contains(text(), "Host:")]/../text()

Это через xpath я так понимаю?

источник

11:10пожаловаться #14

МС

Михаил Синегубов... in Scrapy

Andrei Volkau

Это через xpath я так понимаю?

да

источник

11:10пожаловаться #15

МС

Михаил Синегубов... in Scrapy

https://stackoverflow.com/questions/11465555/can-we-use-xpath-with-beautifulsoup

can we use xpath with BeautifulSoup?

I am using BeautifulSoup to scrape a url and I had the following code

import urllib
import urllib2
from BeautifulSoup import BeautifulSoup

url = "http://www.example.com/servlet/av/ResultTemplate=

источник

11:10пожаловаться #16

s

smeshny 🏍🏂🥽🏋️‍♂️... in Scrapy

Михаил Синегубов

//strong[contains(text(), "Host:")]/../text()

жиир)
пошел читать книжку по xpath

источник

11:10пожаловаться #17

МС

Михаил Синегубов... in Scrapy

а, не, ща найду bs+xpath

источник

11:11пожаловаться #18

МС

Михаил Синегубов... in Scrapy

не, не найду, там как то при инициализации, вроде, надо настроить.
я просто BS никогда не использовал :)

источник

11:13пожаловаться #19

AV

Andrei Volkau in Scrapy

В любом случае, спасибо большое за xpath

Буду пробывать bs4 c xpath подружить!

источник

11:14пожаловаться #20