Телеграмм чат группы scrapy

1. Из start_requests вызывается через async for функция connect_and_read_websocket(), генерящая сообщения websocket.
2. Эта функция, обрамленная try/except Exception, пытается подключить websocket (или переподключить, если коннект дропается).
3. Каким-то образом (как??) раз в неделю exception (при таймауте подключения) просачивается в start-requests.
4. После этого начинается какое-то безумие. Скрапи глушит спайдер (Spider closed), но потом впадает в какой-то луп Error while obtaining start requests, который множится (см. постоянно увеличивающееся количество _next_request c каждым новым трейсом) и в итоге сжирает или всю память или все место на диске (последний лог был 30 гигов).

источник

20:16пожаловаться #4

Dmitry in Scrapy

Вот функция:

async def connect_and_read_websocket():
    while True:
        try:
            logger.info("connecting to: %s", WS_URL)
            w = await tornado.websocket.websocket_connect(WS_URL, connect_timeout=5, ping_interval=25)
            logger.info("connected")
        except Exception as ex:
            logger.error("can't connect to websocket: %s", ex)
            await asyncio.sleep(5)
            continue

        while True:
            payload = await w.read_message()

...

источник

20:17пожаловаться #5

Dmitry in Scrapy

Вот лог: https://pastebin.com/stANAB3y

Pastebin

[Python] 2020-06-24 13:06:32 [wsock] ERROR: can't connect to websocket: Timeout while con - Pastebin.com

источник

20:17пожаловаться #6

Archie in Scrapy

сайт з динамическим контентом (скролл по нажатие вниз) , нашел скрытый апи и разницу в генерации url, но нету в ответе указания есть ли след страница или нет. То я могу пропарсить хардкордом изменяя url , но что будет когда страницы закончаться? как это обработать

источник

20:52пожаловаться #7

Andrey Rahmatullin in Scrapy

А как в браузере?

источник

20:52пожаловаться #8

Andrey Rahmatullin in Scrapy

Вообще если запрос не вернул данных то дальше не листать (но это не распараллелить)

источник

20:53пожаловаться #9

Archie in Scrapy

в браузере вотакая вот ссылка

источник

20:53пожаловаться #10

Archie in Scrapy

источник

20:53пожаловаться #11

Archie in Scrapy

типо ее какбы нет

источник

20:54пожаловаться #12

Archie in Scrapy

хотел проверять есть ли эта кнопка и если нету то стопнуть, но как оказалось на последней странице она тоже есть, если нажать то она пропадает но контента нет

источник

20:54пожаловаться #13

Andrey Rahmatullin in Scrapy

Dmitry

Вот функция:

async def connect_and_read_websocket():
    while True:
        try:
            logger.info("connecting to: %s", WS_URL)
            w = await tornado.websocket.websocket_connect(WS_URL, connect_timeout=5, ping_interval=25)
            logger.info("connected")
        except Exception as ex:
            logger.error("can't connect to websocket: %s", ex)
            await asyncio.sleep(5)
            continue

        while True:
            payload = await w.read_message()

...

Просачивается потому что в трейсбэке оно в await asyncio.sleep(), а что оно там делает - вопрос

источник

20:54пожаловаться #14

Andrey Rahmatullin in Scrapy

Archie

Значит сайт делает как я написал

источник

20:55пожаловаться #15

Archie in Scrapy

Andrey Rahmatullin

Значит сайт делает как я написал