Телеграмм чат группы scrapy

2020 May 25

AB

Alexander B in Scrapy

привет) кто юзает spidermon? есть какой нибудь изи способ подавить его лог? FAILED ACTIONS вот это вот все?

источник

22:57пожаловаться #1

2020 May 26

A

Alex in Scrapy

всем привет
подскажите как правильно указать лимит на глубину скрапинга
два варианта нашел

custom_settings = {
        'DEPTH_LIMIT': 1
    }

@classmethod
    def from_crawler(cls, crawler):
        settings = crawler.settings
        default_depth = settings.getint('DEPTH_LIMIT', 1)

какой из них верный?

источник

11:17пожаловаться #2

A

Alex in Scrapy

оба правильные) какой лучше использовать

источник

11:17пожаловаться #3

МС

Михаил Синегубов... in Scrapy

Alex

оба правильные) какой лучше использовать

это вопрос или утверждение? :)
как по мне, так от второго смысла нет. У тебя же, получается, в настройках уже установлен DEPTH_LIMIT

источник

11:19пожаловаться #4

МС

Михаил Синегубов... in Scrapy

и и второй более громоздкий

источник

11:19пожаловаться #5

A

Alex in Scrapy

это вопрос)
когда что то не знаешь и делаешь первый раз, всегда хочеться спросить)

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://quotes.toscrape.com/page/1/', ]
   custom_settings = {
              'DEPTH_LIMIT': 1
  }

в общем вот так вот просто и лимит будет работать!
спасибо за ответ!

источник

11:21пожаловаться #6

AR

Andrey Rahmatullin in Scrapy

будет, но только для этого паука

источник

11:22пожаловаться #7

A

Alex in Scrapy

Andrey Rahmatullin

будет, но только для этого паука

спасибо)

источник

11:23пожаловаться #8

A

Alex in Scrapy

лимит будет работать только для этой функции, так же?

def parse(self, response):
    yield from response.follow_all(links, self.parse_data)

дальше я передаю ссылки для скрапинга контента

self.parse_data

другой функции
на другие функции лимит этот действовать не будет?

источник

11:42пожаловаться #9

МС

Михаил Синегубов... in Scrapy

Alex

лимит будет работать только для этой функции, так же?

def parse(self, response):
    yield from response.follow_all(links, self.parse_data)

дальше я передаю ссылки для скрапинга контента

self.parse_data

другой функции
на другие функции лимит этот действовать не будет?

лимит будет работать ДЛЯ ПАУКА, прям для всего, прям совсем, прям для всех функций, прям для всего файла
😂

источник

11:49пожаловаться #10

A

Alex in Scrapy

хм...
я с главной страницы беру ссылки, 40 ссылок если точно
потом по этим ссылкам захожу и беру контент
страниц больше 100 и на каждой по 40 ссылок
вот я хочу зайти только на 5 страниц и спарсить данные

источник

11:52пожаловаться #11

МС

Михаил Синегубов... in Scrapy

Alex

хм...
я с главной страницы беру ссылки, 40 ссылок если точно
потом по этим ссылкам захожу и беру контент
страниц больше 100 и на каждой по 40 ссылок
вот я хочу зайти только на 5 страниц и спарсить данные

так, стоп, ты вообще понимаешь, что такое "глубина парсинга"?
это "на сколько уровней ты пройдешь структруру"

источник

11:54пожаловаться #12

МС

Михаил Синегубов... in Scrapy

https://alaev.info/wp-content/uploads/2019/09/page-url-level-1.png

источник

11:55пожаловаться #13

МС

Михаил Синегубов... in Scrapy

речь о том, насколько "в глубь" ты опустишся по структуре, но это никак не ограничивает работу "по горизонтали"

источник

11:56пожаловаться #14

A

Alex in Scrapy

Home
 |_link1
 |_link2
1page
 |_link1
 |_link2

Home, 1page - лимит будет действовать на эти страницы
а линков внутри этих страниц может быть сколько угодно
все верно?)

источник

11:59пожаловаться #15

МС

Михаил Синегубов... in Scrapy

схема не правильная

источник

12:21пожаловаться #16

A

Alex in Scrapy

это я совсем по простому)

источник

12:26пожаловаться #17

МС

Михаил Синегубов... in Scrapy

смотри, как я понимаю (ну не уверен, откуда считается DEPTH_LIMIT)
1. нулевой уровень - это ты перешел по ссылкам из start_urls
2. собрал со страниц ссылки (пофиг сколько их там, это никак, в данном случае, не лимитируется)
3. перешел по этим ссылкам, получил +1 к уровню.

повторяешь пункты 2 и 3 пока не надоест :)

источник

12:53пожаловаться #18

A

Alex in Scrapy

Михаил Синегубов

смотри, как я понимаю (ну не уверен, откуда считается DEPTH_LIMIT)
1. нулевой уровень - это ты перешел по ссылкам из start_urls
2. собрал со страниц ссылки (пофиг сколько их там, это никак, в данном случае, не лимитируется)
3. перешел по этим ссылкам, получил +1 к уровню.

повторяешь пункты 2 и 3 пока не надоест :)

спасибо за разъяснение
если start_urls - считается корнем то как быть в такой ситуации
start_urls - 1 ссылка, 1 обращение +1 к лимиту
но если у меня всего одна ссылка но из этой ссылки я получаю следующие страницы для парсинга.
получается внутри 1 ссылки из start_urls у меня получается куча страниц и как тогда лимиты устанавливать?

источник

13:10пожаловаться #19

A

Alex in Scrapy

тогда надо колхозить проверку на страницы и останавливать паука после достижения лимита
только такой вариант приходит в голову)

источник

13:12пожаловаться #20