Телеграмм чат группы scrapy_python страница 1749

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

531 membersпожаловаться на группу

2020 July 08

К

Кирилл in Scrapy

Кэлбек возвращает запрос(или несколько), и этот запрос ставится в очередь

источник

14:25пожаловаться #1

SM

Setplus Mac in Scrapy

так

то есть, parse должна выглядеть так?

def parse(self, response):
# FIXME: пулучаем все линки на след. страницы
# нам нужна ссылка, у которой текст -- След.
yield scrapy.Request(response.urljoin(response.url), callback=self.parse_item)
next_page = ""
all_links = response.css('div[data-pagination-num="1"] a')
for a_sel in all_links:
if a_sel.css('a::text').get() == 'След.':
next_page = a_sel.css('a::attr(href)').get()
if next_page:
yield scrapy.Request(response.urljoin(next_page), callback=self.parse)

источник

14:42пожаловаться #2

К

Кирилл in Scrapy

так

то есть, parse должна выглядеть так?

def parse(self, response):
# FIXME: пулучаем все линки на след. страницы
# нам нужна ссылка, у которой текст -- След.
yield scrapy.Request(response.urljoin(response.url), callback=self.parse_item)
next_page = ""
all_links = response.css('div[data-pagination-num="1"] a')
for a_sel in all_links:
if a_sel.css('a::text').get() == 'След.':
next_page = a_sel.css('a::attr(href)').get()
if next_page:
yield scrapy.Request(response.urljoin(next_page), callback=self.parse)

нет, зачем делать второй запрос для парсинга итема, если у тебя уже есть респонс

источник

14:44пожаловаться #3

К

Кирилл in Scrapy

нижняя часть уже лучше, ещё бы этот цикл поменять на нормальный селектор и будет ок

источник

14:46пожаловаться #4

SM

Setplus Mac in Scrapy

нет, зачем делать второй запрос для парсинга итема, если у тебя уже есть респонс

так, то есть первый запрос оставляем, чтобы спарсить данные с текущего респонса, а второй ... но мне всё ещё нужно перейти на след страницу...

источник

14:46пожаловаться #5

К

Кирилл in Scrapy

нет, первый запрос не нужен, тебе не нужно делать еще один запрос на ту же страницу чтоб получить данные, сразу же используешь респонс

источник

14:48пожаловаться #6

К

Кирилл in Scrapy

попробуй поменять yield scrapy.Request(response.urljoin(response.url), callback=self.parse_item) на yield from self.parse_item(response)

источник

14:49пожаловаться #7

К

Кирилл in Scrapy

запрос след страницы выглядит более менее норм сейчас

источник

14:49пожаловаться #8

К

Кирилл in Scrapy

а насчет цикла, xpath умеет делать поиск по тексту

источник

14:53пожаловаться #9

К

Кирилл in Scrapy

а там уже можно и на CrawlSpider поменять)

источник

14:53пожаловаться #10

SM

Setplus Mac in Scrapy

попробуй поменять yield scrapy.Request(response.urljoin(response.url), callback=self.parse_item) на yield from self.parse_item(response)

так, это теперь корректно отработало)

источник

14:54пожаловаться #11

SM

Setplus Mac in Scrapy

а там уже можно и на CrawlSpider поменять)

а это тип специальный паук, которые делает то, что я сейчас пытаюсь сделать?)

источник

14:55пожаловаться #12

К

Кирилл in Scrapy

Да, там можно удобно прописывать правила, какие ссылки собирать

источник

14:55пожаловаться #13

SM

Setplus Mac in Scrapy

аа

источник

14:55пожаловаться #14

SM

Setplus Mac in Scrapy

rules и LinkExtractor, да?

источник

14:56пожаловаться #15

К

Кирилл in Scrapy

Да

источник

14:57пожаловаться #16

SM

Setplus Mac in Scrapy

Понял, спасибо большое за терпеливое и хорошее объяснение!)

источник

14:57пожаловаться #17

SM

Setplus Mac in Scrapy

Так
А вот такой момент: как лучше парсить: через итемы или так?

def parse(self, response):
for prod in response.css('div.product-item-container > div.product-item'):
yield {
'name': prod.css('div.product-item-title > a::text').get(),
'desc': prod.css('meta[itemprop="description"]::attr(content)').get(),
'cur price': prod.css('span.product-item-price-current::text').get(),
'old price': prod.css('span.product-item-price-old::text').get(),
}

# FIXME: пулучаем все линки на след. страницы
# нам нужна ссылка, у которой текст -- След.
next_page = ""
all_links = response.css('div[data-pagination-num="1"] a')
for a_sel in all_links:
if a_sel.css('a::text').get() == 'След.':
next_page = a_sel.css('a::attr(href)').get()
if next_page:
yield response.follow(next_page, callback=self.parse)

источник

15:02пожаловаться #18

SM

Setplus Mac in Scrapy

Просто в последнем случае при вызове crawl -o file.csv или .json данные в нормальном структурированном виде выплёвываются

источник

15:02пожаловаться #19

SM

Setplus Mac in Scrapy

а если с итемами использовать, то нет

источник

15:03пожаловаться #20