Size: a a a

2020 December 30

AR

Andrey Rahmatullin in Scrapy
нет чтоб в кнопке найти
источник

AR

Andrey Rahmatullin in Scrapy
т.е. изначально вопрос был "я нашёл какой-то урл, но он нерабочий"
источник

SB

Sergey Bizikin in Scrapy
Всем привет!
Подскажите такой вопрос: на сколько я понимаю краулер scrapy работает в рамках одного tcp-соединения при отправке запросов.
Я использую прокси, который обновляет внешний ip при только при создании нового tcp-соединения. Вопрос: как-то можно принудительно при работе краулера открывать новые соединения на каждый запрос?
Нашел тут аналогичный вопрос, но там ответа нет - https://stackoverflow.com/questions/56783958/resetting-tcp-connection-programmingly-in-scrapy
источник

A

Andrii in Scrapy
Sergey Bizikin
Всем привет!
Подскажите такой вопрос: на сколько я понимаю краулер scrapy работает в рамках одного tcp-соединения при отправке запросов.
Я использую прокси, который обновляет внешний ip при только при создании нового tcp-соединения. Вопрос: как-то можно принудительно при работе краулера открывать новые соединения на каждый запрос?
Нашел тут аналогичный вопрос, но там ответа нет - https://stackoverflow.com/questions/56783958/resetting-tcp-connection-programmingly-in-scrapy
источник

SB

Sergey Bizikin in Scrapy
Использую как раз, но это не решает проблему: у меня несколько платных прокси - они ротируются, но, новый внешний ip для каждого из них в рамках работы краулера устанавливается и меняется только при создании tcp-соединении, а оно постоянно получается в scrapy. В итоге у каждого прокси при работе получается только 1 ip внешний. Что не хорошо)
источник

К

Кирилл in Scrapy
Sergey Bizikin
Использую как раз, но это не решает проблему: у меня несколько платных прокси - они ротируются, но, новый внешний ip для каждого из них в рамках работы краулера устанавливается и меняется только при создании tcp-соединении, а оно постоянно получается в scrapy. В итоге у каждого прокси при работе получается только 1 ip внешний. Что не хорошо)
Вроде в скрапи нет такого встроенного функционала. Нужный метод, это loseConnection но как и где его можно вызвать? я бы для начала попробовал наследоваться от довнлоад хэндлера https://github.com/scrapy/scrapy/blob/master/scrapy/core/downloader/handlers/http11.py
источник

SB

Sergey Bizikin in Scrapy
Судя по всему мне помогло простое добавление "Connection": "close" в headers при реквесте.
источник

К

Кирилл in Scrapy
Sergey Bizikin
Судя по всему мне помогло простое добавление "Connection": "close" в headers при реквесте.
Лол, я думал ты это уже пробовал
источник

SB

Sergey Bizikin in Scrapy
Кирилл
Лол, я думал ты это уже пробовал
Ну я ж не программер вообще, так, тыкаю по работе) Но спасибо за помощь в любом случае)
источник

SS

Stepan Smirnov in Scrapy
А какие есть решения для следующей проблемы: как проигнорировать запросы к страницам, содержащим items, замеченные при предыдущих запусках паука? Про scrapy-deltafetch слышал.
источник

G

Georgiy in Scrapy
Stepan Smirnov
А какие есть решения для следующей проблемы: как проигнорировать запросы к страницам, содержащим items, замеченные при предыдущих запусках паука? Про scrapy-deltafetch слышал.
1. использовать httpcache
2. для остальных запросов (на страницы где нету items) - добавить request.meta['dont_cache'] = True
источник

К

Кирилл in Scrapy
Stepan Smirnov
А какие есть решения для следующей проблемы: как проигнорировать запросы к страницам, содержащим items, замеченные при предыдущих запусках паука? Про scrapy-deltafetch слышал.
Особо разных решений нет. Где-то сохраняется какое-то уникальное поле айтема которое доступно перед запросом страницы с самим айтемом (ссылка, sku, название) и перед запросом проверяется наличие. А дальше вариации, сохранять в кэш, дропать реквест и т.п.
источник

К

Кирилл in Scrapy
Или ты про какой-то конкретный готовый пакет?
источник

SS

Stepan Smirnov in Scrapy
Кирилл
Или ты про какой-то конкретный готовый пакет?
deltafetch почти готовый
источник

К

Кирилл in Scrapy
Stepan Smirnov
deltafetch почти готовый
Да, но он чем-то не подходит, если ты альтернативу спрашиваешь?
источник

SS

Stepan Smirnov in Scrapy
Кирилл
Да, но он чем-то не подходит, если ты альтернативу спрашиваешь?
Клиент спросил про альтернативы
источник

AR

Andrey Rahmatullin in Scrapy
scrapy-crawl-once > scrapy-deltafetch
источник
2021 January 01

A

Andrii in Scrapy
источник
2021 January 02

AC

A C in Scrapy
с Новым Годом!
источник

J

Jack in Scrapy
Ребят всех с новым годом
источник