Телеграмм чат группы scrapy

Достичь этого исключительно за счет Scrapy settings - невозможно.
closespider extension, который обрабатывает CLOSESPIDER_TIMEOUT, CLOSESPIDER_ITEMCOUNT, CLOSESPIDER_PAGECOUNT, CLOSESPIDER_ERRORCOUNT - работает немного иначе.
В момент его срабатывания следующее:
1. Приложение перестает планировать/выполнять новые запросы (а не останавливает процес сразу).
2. Запросы, которые на тот момент были в, очереди scrapy downloader - будут обработаны.. как обычно (именно поэтому там результат 116, а не строго 100)

источник

17:11пожаловаться #4

Arkady B in Scrapy

🎱

кстати, мне нужно ограничить айтемы в скрапи до 100 штук.
прописал в settings

CLOSESPIDER_ITEMCOUNT = 100

все равно скрапится больше 100. (116)

Он в асинке запускает треды, и так как он наверняка не знает, будет ли итем годный или нет - обрабатывает больше чем положено. В пацплайне сделай жестнле ограничение

источник

18:18пожаловаться #5

Andrey Rahmatullin in Scrapy

точно, благодаря этому я догадался как скорее всего получится сделать ровно 100, но это тупо для реальных юзкейсов %)

источник

18:32пожаловаться #6

Zack!? in Scrapy

image_2021-02-07_20-21-42.png

(35.1 Кб)

парни, спасайте, уже который час бьюсь

Есть пайплайн

class IconsPipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None, *, item=None):    
        path = '/'
        if item:
            adapter = ItemAdapter(item)
            ext_id = str(adapter['ext_id'])
            folder = Path(info.spider.name, ext_id)
            path = (folder / request.url.split('/')[-1]).as_posix()
        else:
            logger.error('ITEM MISSED')
        logger.info(path)
        return path

А на изображении айтем с загруженными картинками.

Подскажите пожалуйста, как возможно, что у них разное название папки, в которую грузить картинки, если оно берётся с ext_id айтема

image_2021-02-07_20-21-42.png

(35.1 Кб)

парни, спасайте, уже который час бьюсь

Есть пайплайн

class IconsPipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None, *, item=None):    
        path = '/'
        if item:
            adapter = ItemAdapter(item)
            ext_id = str(adapter['ext_id'])
            folder = Path(info.spider.name, ext_id)
            path = (folder / request.url.split('/')[-1]).as_posix()
        else:
            logger.error('ITEM MISSED')
        logger.info(path)
        return path

Видимо ext_id разные)

источник

20:27пожаловаться #8

Кирилл in Scrapy

Включай дэбагер, ставь брейкпоинты и смотри откуда приходит новое значение

источник

20:32пожаловаться #9

2021 February 08

Boris Litvyakov in Scrapy

🎱

мм, вот оно что. Т.е нельзя прям строго ограничить?

можно сделать счетчик сгенерированных реквестов и в нужный момент перестать их посылать, получится ровно

источник

01:41пожаловаться #10

МС

Михаил Синегубов... in Scrapy

народ, либо я туплю (как всегда), либо одно из двух
задача: нарыть 100500 млн rss фидов, чем больше тем лучше
вопросы
1. если у кого есть каталоги - бросьте ссылочками, будет вам вери биг сенкс
2. как искать в гугле/яндексе по исходному коду на сайте? было же, а щас никак не найду 😕
3. если есть на примете - подскажите бесплатные сайта, что бы искать по коду сайтов

источник

14:07пожаловаться #11

МС

Михаил Синегубов... in Scrapy

и ишо возникла чумачечья мысль - а где нарыть базу "всех" доменов?
точнее - как ее собрать :)

источник

14:10пожаловаться #12

Gleb B in Scrapy

Михаил Синегубов

ищи по частям урла ‘\rss’ или регулярное выражение составь

источник

16:17пожаловаться #13

МС

Михаил Синегубов... in Scrapy

Gleb B

ищи по частям урла ‘\rss’ или регулярное выражение составь

по чем идти? по поиску, так но, скорее всего, самих фидов не будет в выдаче

источник

16:28пожаловаться #14

Gleb B in Scrapy

Михаил Синегубов

по чем идти? по поиску, так но, скорее всего, самих фидов не будет в выдаче

опечатался) гугли по allinurl:rss ну со смекалкой какой-то только составь запрос)

источник

16:56пожаловаться #15

Gleb B in Scrapy

я бы еще глянул как выглядят стандартные урлы популярных плагинов рсс на вордпресс и гуглил по ним

источник

16:57пожаловаться #16

Andrey Sapronov in Scrapy

Привет, подскажите пожалуйста, какие преимущества использовать скрапи по сравнение например с aiohttp?

источник

17:37пожаловаться #17

SoHard 🎄 in Scrapy

Andrey Sapronov

Привет, подскажите пожалуйста, какие преимущества использовать скрапи по сравнение например с aiohttp?

скрапи фреймворк, aiohttp - библиотека

источник

17:38пожаловаться #18

SoHard 🎄 in Scrapy

скрапи комбайн который делает всё, aiohttp сам по себе только получить страницу может

источник

17:39пожаловаться #19

Andrey Sapronov in Scrapy

SoHard 🎄

скрапи комбайн который делает всё, aiohttp сам по себе только получить страницу может

Хотелось бы какой-то конкретики, я так-то все свои проблемы и так решаю при помощи aiohttp. Что скрапи предлагает чего нельзя/сложно решить при помощи "библиотек"

источник

17:41пожаловаться #20