Size: a a a

2020 May 25

AB

Alexander B in Scrapy
привет) кто юзает spidermon? есть какой нибудь изи способ подавить его лог? FAILED ACTIONS вот это вот все?
источник
2020 May 26

A

Alex in Scrapy
всем привет
подскажите как правильно указать лимит на глубину скрапинга
два варианта нашел
custom_settings = {
       'DEPTH_LIMIT': 1
   }

@classmethod
   def from_crawler(cls, crawler):
       settings = crawler.settings
       default_depth = settings.getint('DEPTH_LIMIT', 1)

какой из них верный?
источник

A

Alex in Scrapy
оба правильные) какой лучше использовать
источник

МС

Михаил Синегубов... in Scrapy
Alex
оба правильные) какой лучше использовать
это вопрос или утверждение? :)
как по мне, так от второго смысла нет. У тебя же, получается, в настройках уже установлен DEPTH_LIMIT
источник

МС

Михаил Синегубов... in Scrapy
и и второй более громоздкий
источник

A

Alex in Scrapy
это вопрос)
когда что то не знаешь и делаешь первый раз, всегда хочеться спросить)
class QuotesSpider(scrapy.Spider):
   name = "quotes"
   start_urls = ['http://quotes.toscrape.com/page/1/', ]
  custom_settings = {
             'DEPTH_LIMIT': 1
 }
в общем вот так вот просто и лимит будет работать!
спасибо за ответ!
источник

AR

Andrey Rahmatullin in Scrapy
будет, но только для этого паука
источник

A

Alex in Scrapy
Andrey Rahmatullin
будет, но только для этого паука
спасибо)
источник

A

Alex in Scrapy
лимит будет работать только для этой функции, так же?
def parse(self, response):
   yield from response.follow_all(links, self.parse_data)
дальше я передаю  ссылки для скрапинга контента
self.parse_data
 другой функции
на другие функции лимит этот действовать не будет?
источник

МС

Михаил Синегубов... in Scrapy
Alex
лимит будет работать только для этой функции, так же?
def parse(self, response):
   yield from response.follow_all(links, self.parse_data)
дальше я передаю  ссылки для скрапинга контента
self.parse_data
 другой функции
на другие функции лимит этот действовать не будет?
лимит будет работать ДЛЯ ПАУКА, прям для всего, прям совсем, прям для всех функций, прям для всего файла
😂
источник

A

Alex in Scrapy
хм...
я с главной страницы беру ссылки, 40 ссылок если точно
потом по этим ссылкам захожу и беру контент
страниц больше 100 и на каждой по 40 ссылок
вот я хочу зайти только на 5 страниц и спарсить данные
источник

МС

Михаил Синегубов... in Scrapy
Alex
хм...
я с главной страницы беру ссылки, 40 ссылок если точно
потом по этим ссылкам захожу и беру контент
страниц больше 100 и на каждой по 40 ссылок
вот я хочу зайти только на 5 страниц и спарсить данные
так, стоп, ты вообще понимаешь, что такое "глубина парсинга"?
это "на сколько уровней ты пройдешь структруру"
источник

МС

Михаил Синегубов... in Scrapy
источник

МС

Михаил Синегубов... in Scrapy
речь о том, насколько "в глубь" ты опустишся по структуре, но это  никак не ограничивает работу "по горизонтали"
источник

A

Alex in Scrapy
Home
|_link1
|_link2
1page
|_link1
|_link2

Home, 1page - лимит будет действовать на эти страницы
а линков внутри этих страниц может быть сколько угодно
все верно?)
источник

МС

Михаил Синегубов... in Scrapy
схема не правильная
источник

A

Alex in Scrapy
это я совсем по простому)
источник

МС

Михаил Синегубов... in Scrapy
смотри, как я понимаю (ну не уверен, откуда считается DEPTH_LIMIT)
1. нулевой уровень - это ты перешел по ссылкам из start_urls
2. собрал со страниц ссылки (пофиг сколько их там, это никак, в данном случае, не лимитируется)
3. перешел по этим ссылкам, получил +1 к уровню.

повторяешь пункты 2 и 3 пока не надоест :)
источник

A

Alex in Scrapy
Михаил Синегубов
смотри, как я понимаю (ну не уверен, откуда считается DEPTH_LIMIT)
1. нулевой уровень - это ты перешел по ссылкам из start_urls
2. собрал со страниц ссылки (пофиг сколько их там, это никак, в данном случае, не лимитируется)
3. перешел по этим ссылкам, получил +1 к уровню.

повторяешь пункты 2 и 3 пока не надоест :)
спасибо за разъяснение
если start_urls - считается корнем то как быть в такой ситуации
start_urls - 1 ссылка, 1 обращение +1 к лимиту
но если у меня всего одна ссылка но из этой ссылки я получаю следующие страницы для парсинга.
получается внутри 1 ссылки  из start_urls у меня получается куча страниц и как тогда лимиты устанавливать?
источник

A

Alex in Scrapy
тогда надо колхозить проверку на страницы и останавливать паука после достижения лимита
только такой вариант приходит в голову)
источник