Size: a a a

2020 May 26

SS

Stepan Smirnov in Scrapy
Alex
спасибо за разъяснение
если start_urls - считается корнем то как быть в такой ситуации
start_urls - 1 ссылка, 1 обращение +1 к лимиту
но если у меня всего одна ссылка но из этой ссылки я получаю следующие страницы для парсинга.
получается внутри 1 ссылки  из start_urls у меня получается куча страниц и как тогда лимиты устанавливать?
rtfm
источник

A

Alex in Scrapy
умный сильно?
источник

МС

Михаил Синегубов... in Scrapy
ну, DEPTH_LIMIT это ограничение "насколько глубоко" надо залезть.

ты хоть напиши, что именно ты хочешь получить, так то есть настройка ограничения количества результатов
источник

AR

Andrey Rahmatullin in Scrapy
или просто со страницы только первые N ссылок брать
источник

A

Alex in Scrapy
в рамках обучения придумал себе задачу)
спарсить себе все позиции с этого сайта
https://www.olx.ua/transport/avtomobili-iz-polshi/ -
вот код
https://pastebin.com/1C9ifay7
с первой страницы парсить получается, все ок
задача как пройтись по страницам дальше но все не нужны страницы их 500, а с возможностью парсить 5, 10 страниц
источник

AR

Andrey Rahmatullin in Scrapy
ну вот моё последнее чем не решение (я просто тоже не понимаю что именно ограничивать надо)
источник

A

Alex in Scrapy
на странице 40 объявлений
в каждое объявление нужно зайти и взять данные
вот ограничивать страницы мне и надо)
источник

AR

Andrey Rahmatullin in Scrapy
которые? :))
источник

AR

Andrey Rahmatullin in Scrapy
тут всё - страницы
источник

AR

Andrey Rahmatullin in Scrapy
страницы которые по 40 объявлений на каждой?
источник

A

Alex in Scrapy
да)
источник

AR

Andrey Rahmatullin in Scrapy
ну так листай их пока не пролистаешь N
источник

AR

Andrey Rahmatullin in Scrapy
посмотрел сайт, там только первые 13 страниц видно сходу
источник

A

Alex in Scrapy
я так и думал как бы делать)
но вот увидел DEPTH_LIMIT' - и завис на этом, зато понял)
источник

AR

Andrey Rahmatullin in Scrapy
если тебе надо меньше, то изи, а если больше, то ссылки на следующие страницы надо доставать с предыдущих, а не с первой
источник

AR

Andrey Rahmatullin in Scrapy
DEPTH_LIMIT тут конечно не нужен
источник

A

Alex in Scrapy
Andrey Rahmatullin
посмотрел сайт, там только первые 13 страниц видно сходу
да там только номер менять и можно по ним ходить ?page=1
источник

AR

Andrey Rahmatullin in Scrapy
тогда сгенерь ссылки на первые N, ты же знаешь N
источник

A

Alex in Scrapy
понял, всем спасибо)
источник

i

ildar in Scrapy
Ха, помнится ко мне подкатили с предложением попарсить сайт беркли с лимитом 8 по домену и на 1 линк "наружу". Где-то на втором миллионе страниц я начал что-то подозревать ^_^
источник