Size: a a a

2020 June 09

G

Georg in Scrapy
Dr. Bot
ок. как заработаешь на яхту. не забудь пригласить. помни это мы тебе разрешили парсить 😉
Вряд ли на яхту, но например хорошим риелтором/поставщиком/ресселером возможно
источник

D

Dr. Bot in Scrapy
что-то мы ушли в глубокий офтоп. да простят нас админы и модеры...
источник
2020 June 10

SS

Stepan Smirnov in Scrapy
Dr. Bot
ок. как заработаешь на яхту. не забудь пригласить. помни это мы тебе разрешили парсить 😉
это кстати ограниченно используемый подход при автоматическом трейдинге
источник

A

Alex in Scrapy
Интересно было почитать)
Пока как я понял в общем можно)
Тот же сайт jooble, это же агрегатор. Может конечно и соглашения у них с сайтами есть но чет врядли)
Кстати, я как то задавал вопрос по поводу парсинга под агрецию.
Но мне ответили - один сайт - один паук.
А если парсить надо много сайтов, как тогда структура будет выглядеть?
Типа:
пауки под каждый сайт и запуск по расписанию, крон как вариант.
источник

D

Dr. Bot in Scrapy
Alex
Интересно было почитать)
Пока как я понял в общем можно)
Тот же сайт jooble, это же агрегатор. Может конечно и соглашения у них с сайтами есть но чет врядли)
Кстати, я как то задавал вопрос по поводу парсинга под агрецию.
Но мне ответили - один сайт - один паук.
А если парсить надо много сайтов, как тогда структура будет выглядеть?
Типа:
пауки под каждый сайт и запуск по расписанию, крон как вариант.
Но мне ответили - один сайт - один паук.
– ну да. а в чем проблема?

пауки под каждый сайт и запуск по расписанию, крон как вариант.
– ну да, посмотри scrapyd
источник

AR

Andrey Rahmatullin in Scrapy
и Scrapy Cloud :)
источник

AR

Andrey Rahmatullin in Scrapy
отдельная большая проблема будет со сведением данных от разных джобов и разных пауков вместе, это уже отдельно от скрапи придётся делать
источник

AR

Andrey Rahmatullin in Scrapy
(можно тупо сунуть в базу например)
источник

SS

Stepan Smirnov in Scrapy
Andrey Rahmatullin
и Scrapy Cloud :)
у вас ip динамический
источник

AR

Andrey Rahmatullin in Scrapy
это хорошо или плохо?
источник

SS

Stepan Smirnov in Scrapy
для меня плохо
источник

AR

Andrey Rahmatullin in Scrapy
почему?
источник

SS

Stepan Smirnov in Scrapy
прокси провайдеры многие отваливаются
источник

OS

Oleg Shleiko in Scrapy
    def spider_opened(self, spider):
       spider.logger.info('Spider opened: %s' % spider.name)
       spider.custom_settings = {'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1467.0 Safari/537.36'}

Не работает, берёт в Request один чёрт настройку из settings.py, что сделал не так?
(этот код в мидлваре)
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
вопрос: как отключить прокси по быстрому?
https://pastebin.com/13LMdvkV
задано вот так
источник

AR

Andrey Rahmatullin in Scrapy
Oleg Shleiko
    def spider_opened(self, spider):
       spider.logger.info('Spider opened: %s' % spider.name)
       spider.custom_settings = {'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1467.0 Safari/537.36'}

Не работает, берёт в Request один чёрт настройку из settings.py, что сделал не так?
(этот код в мидлваре)
я думаю к этому времени объект сеттингс уже создался и custom_settings парсить некому
источник

AR

Andrey Rahmatullin in Scrapy
закомментировать его использование
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
Could not open CONNECT tunnel with proxy
источник

✏d

✏️ Oleksandr dntPani... in Scrapy
Andrey Rahmatullin
закомментировать его использование
в результате
источник

AR

Andrey Rahmatullin in Scrapy
значит надо закомментировать больше кода
источник