Size: a a a

2020 July 23

A

Andrii in Scrapy
Зачем?
источник

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy
Andrii
Зачем?
ну а как?
1. собираю линки с одной страницы
2. прохожусь по пагинации по всем страницам и делаю 1.
3. на каждой страницы граблю инфу
источник

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy
я просто хз как "правильно" это реализовать в scrapy
на bs бы сделал без всякого
источник

S

SoHard 🎄 in Scrapy
Andrii
//h3/following-sibling::div[@class='line']
спасибо
источник

A

Andrii in Scrapy
💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲
ну а как?
1. собираю линки с одной страницы
2. прохожусь по пагинации по всем страницам и делаю 1.
3. на каждой страницы граблю инфу
Нарисуй на бумаге :)
источник

A

Andrii in Scrapy
💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲
ну а как?
1. собираю линки с одной страницы
2. прохожусь по пагинации по всем страницам и делаю 1.
3. на каждой страницы граблю инфу
def parse(self, response):
       links = response.xpath("//@href").getall()
for link in links:
           yield scrapy.Request(url=link , callback=self.parse_links)


   def parse_links(self, response):
       articles = response.xpath("//@href").getall()
for link in links:
           yield scrapy.Request(url=link , callback=self.parse_data)

pagination...
           yield scrapy.Request(url=next_page , callback=self.parse_links)

   def parse_data(self, response)
data ...
источник

A

Andrii in Scrapy
на вскидку
источник

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy
источник

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy
спасибо
источник

A

Andrii in Scrapy
На бумаге схему нарисуй и все будет ясно - что с чим взаимодействует
источник

V

Viktor in Scrapy
Andrii
def parse(self, response):
       links = response.xpath("//@href").getall()
for link in links:
           yield scrapy.Request(url=link , callback=self.parse_links)


   def parse_links(self, response):
       articles = response.xpath("//@href").getall()
for link in links:
           yield scrapy.Request(url=link , callback=self.parse_data)

pagination...
           yield scrapy.Request(url=next_page , callback=self.parse_links)

   def parse_data(self, response)
data ...
Лучше уже CrawlSpider
источник

A

Andrii in Scrapy
Viktor
Лучше уже CrawlSpider
не хирургично
источник

V

Viktor in Scrapy
Andrii
не хирургично
+
источник

A

Andrii in Scrapy
Andrii
def parse(self, response):
       links = response.xpath("//@href").getall()
for link in links:
           yield scrapy.Request(url=link , callback=self.parse_links)


   def parse_links(self, response):
       articles = response.xpath("//@href").getall()
for link in links:
           yield scrapy.Request(url=link , callback=self.parse_data)

pagination...
           yield scrapy.Request(url=next_page , callback=self.parse_links)

   def parse_data(self, response)
data ...
может есть лучше конешно способ, ... и более пайтоник, но...)
источник

💀Ҁ

💀 Ңӥҟӥҭӓ Ҁӆӑҫҭӥӿӥӊ 🐲... in Scrapy
Andrii
может есть лучше конешно способ, ... и более пайтоник, но...)
та это вроде как раз в стили scrapy
источник

К

Кирилл in Scrapy
Вообще нет)
источник

AR

Andrey Rahmatullin in Scrapy
да нормально
источник

AR

Andrey Rahmatullin in Scrapy
ну, щас можно (и следовательно нужно) делать yield from response.follow_all()
источник

AR

Andrey Rahmatullin in Scrapy
если Кирилл про CrawlSpider, то я его терпеть не могу
источник

A

Andrii in Scrapy
Andrey Rahmatullin
ну, щас можно (и следовательно нужно) делать yield from response.follow_all()
Вот читал, но еще не делал...надо будет попробовать
источник