Size: a a a

2021 February 07

G

Georgiy in Scrapy
🎱
в условии такой пунктик:
Make use of the Scrapy settings to limit the number of items crawled to 100
источник

AR

Andrey Rahmatullin in Scrapy
что конечно всякие странные эффекты может вызывать само по себе
источник

AR

Andrey Rahmatullin in Scrapy
формулировка запроса тупая короче
источник

G

Georgiy in Scrapy
🎱
в условии такой пунктик:
Make use of the Scrapy settings to limit the number of items crawled to 100
Достичь этого исключительно за счет Scrapy settings - невозможно.
closespider extension, который обрабатывает CLOSESPIDER_TIMEOUT, CLOSESPIDER_ITEMCOUNT, CLOSESPIDER_PAGECOUNT, CLOSESPIDER_ERRORCOUNT - работает немного иначе.
В момент его срабатывания следующее:
1. Приложение перестает планировать/выполнять новые запросы (а не останавливает процес сразу).
2. Запросы, которые на тот момент были в, очереди scrapy downloader - будут обработаны.. как обычно (именно поэтому там результат 116, а не строго 100)
источник

AB

Arkady B in Scrapy
🎱
кстати, мне нужно ограничить айтемы в скрапи до 100 штук.
прописал в settings CLOSESPIDER_ITEMCOUNT = 100
все равно скрапится больше 100. (116)
Он в асинке запускает треды, и так как он наверняка не знает, будет ли итем годный или нет - обрабатывает больше чем положено. В пацплайне сделай жестнле ограничение
источник

AR

Andrey Rahmatullin in Scrapy
точно, благодаря этому я догадался как скорее всего получится сделать ровно 100, но это тупо для реальных юзкейсов %)
источник

Z

Zack!? in Scrapy
парни, спасайте, уже который час бьюсь

Есть пайплайн
class IconsPipeline(ImagesPipeline):
   def file_path(self, request, response=None, info=None, *, item=None):    
       path = '/'
       if item:
           adapter = ItemAdapter(item)
           ext_id = str(adapter['ext_id'])
           folder = Path(info.spider.name, ext_id)
           path = (folder / request.url.split('/')[-1]).as_posix()
       else:
           logger.error('ITEM MISSED')
       logger.info(path)
       return path
А на изображении айтем с загруженными картинками.

Подскажите пожалуйста, как возможно, что у них разное название папки, в которую грузить картинки, если оно берётся с ext_id айтема
источник

К

Кирилл in Scrapy
Zack!?
парни, спасайте, уже который час бьюсь

Есть пайплайн
class IconsPipeline(ImagesPipeline):
   def file_path(self, request, response=None, info=None, *, item=None):    
       path = '/'
       if item:
           adapter = ItemAdapter(item)
           ext_id = str(adapter['ext_id'])
           folder = Path(info.spider.name, ext_id)
           path = (folder / request.url.split('/')[-1]).as_posix()
       else:
           logger.error('ITEM MISSED')
       logger.info(path)
       return path
А на изображении айтем с загруженными картинками.

Подскажите пожалуйста, как возможно, что у них разное название папки, в которую грузить картинки, если оно берётся с ext_id айтема
Видимо ext_id разные)
источник

К

Кирилл in Scrapy
Включай дэбагер, ставь брейкпоинты и смотри откуда приходит новое значение
источник
2021 February 08

BL

Boris Litvyakov in Scrapy
🎱
мм, вот оно что. Т.е нельзя прям строго ограничить?
можно сделать счетчик сгенерированных реквестов и в нужный момент перестать их посылать, получится ровно
источник

МС

Михаил Синегубов... in Scrapy
народ, либо я туплю (как всегда), либо одно из двух
задача: нарыть 100500 млн rss фидов, чем больше тем лучше
вопросы
1. если у кого есть каталоги - бросьте ссылочками, будет вам вери биг сенкс
2. как искать в гугле/яндексе по исходному коду на сайте? было же, а щас никак не найду 😕
3. если есть на примете - подскажите бесплатные сайта, что бы искать по коду сайтов
источник

МС

Михаил Синегубов... in Scrapy
и ишо возникла чумачечья мысль - а где нарыть базу "всех" доменов?
точнее - как ее собрать :)
источник

GB

Gleb B in Scrapy
Михаил Синегубов
народ, либо я туплю (как всегда), либо одно из двух
задача: нарыть 100500 млн rss фидов, чем больше тем лучше
вопросы
1. если у кого есть каталоги - бросьте ссылочками, будет вам вери биг сенкс
2. как искать в гугле/яндексе по исходному коду на сайте? было же, а щас никак не найду 😕
3. если есть на примете - подскажите бесплатные сайта, что бы искать по коду сайтов
ищи по частям урла ‘\rss’ или регулярное выражение составь
источник

МС

Михаил Синегубов... in Scrapy
Gleb B
ищи по частям урла ‘\rss’ или регулярное выражение составь
по чем идти? по поиску, так но, скорее всего, самих фидов не будет в выдаче
источник

GB

Gleb B in Scrapy
Михаил Синегубов
по чем идти? по поиску, так но, скорее всего, самих фидов не будет в выдаче
опечатался) гугли по allinurl:rss ну со смекалкой какой-то только составь запрос)
источник

GB

Gleb B in Scrapy
я бы еще глянул как выглядят стандартные урлы популярных плагинов рсс на вордпресс и гуглил по ним
источник

AS

Andrey Sapronov in Scrapy
Привет, подскажите пожалуйста, какие преимущества использовать скрапи по сравнение например с aiohttp?
источник

S

SoHard 🎄 in Scrapy
Andrey Sapronov
Привет, подскажите пожалуйста, какие преимущества использовать скрапи по сравнение например с aiohttp?
скрапи фреймворк, aiohttp - библиотека
источник

S

SoHard 🎄 in Scrapy
скрапи комбайн который делает всё, aiohttp сам по себе только получить страницу может
источник

AS

Andrey Sapronov in Scrapy
SoHard 🎄
скрапи комбайн который делает всё, aiohttp сам по себе только получить страницу может
Хотелось бы какой-то конкретики, я так-то все свои проблемы и так решаю при помощи aiohttp. Что скрапи предлагает чего нельзя/сложно решить при помощи "библиотек"
источник