Size: a a a

2020 April 09

AR

Andrey Rahmatullin in Scrapy
а универсальный код, который сам догадается использовать ли хедлесс браузер, и если да, то какой, надо продавать как саас, а не собирать и выкладывать, т.к. это дохера работы так-то
источник

AR

Andrey Rahmatullin in Scrapy
ещё и скрипт чтоб написал за тебя для хедлесс браузера
источник

AC

Alexander Chaptykov in Scrapy
т.е. получается у нас много параметров и кол-во разнообразных попыток стремится к бесконечности
источник

AC

Alexander Chaptykov in Scrapy
ну скорее не догадывается а просто методом грубой силы
источник

AC

Alexander Chaptykov in Scrapy
начинает менять параметры парсинга
источник

AC

Alexander Chaptykov in Scrapy
т.е. я понимаю что я хочу - чтобы менялись параметры парсинга каждый раз после неудачи, но как это архитектурно красиво сделать
источник

AC

Alexander Chaptykov in Scrapy
Andrey Rahmatullin
а универсальный код, который сам догадается использовать ли хедлесс браузер, и если да, то какой, надо продавать как саас, а не собирать и выкладывать, т.к. это дохера работы так-то
вот это более сложная вещь, думаю то что я описал гораздо проще должно быть
источник

AC

Alexander Chaptykov in Scrapy
может в книгах или на курсах описано что-то подобное?
источник

R

Roma in Scrapy
Не думаю что кто то будет делиться архитектурой - в чате Scrapy
источник

AR

Andrey Rahmatullin in Scrapy
опять же если задача "есть N доменов и к ним ещё не написаны спайдеры", то я себе представляю максимум детектилку что вот тут капча и юзерагентом не обойдёшься
источник

AC

Alexander Chaptykov in Scrapy
не, я не про секреты а может какие-то бест-практис, которые уже всем известны
источник

AR

Andrey Rahmatullin in Scrapy
а если спайдеры написаны, так под паппетир их переписывать один хрен
источник

AR

Andrey Rahmatullin in Scrapy
но я канеш не специалист, в SH юзкейсы и воркфлоу другие немношк (и кравлера)
источник

AC

Alexander Chaptykov in Scrapy
извини, а паппетир это что такое?
источник

AR

Andrey Rahmatullin in Scrapy
это такой модный селениум
источник

AC

Alexander Chaptykov in Scrapy
пока про капчу даже разговор не идет, просто есть домены которые либо не парсятся, т.е. попадает какой-то левый код, либо не дают данные
источник

AR

Andrey Rahmatullin in Scrapy
не бывает такого, что "не парсятся, т.е. попадает какой-то левый код, либо не дают данные" и это при этом не защита
источник

AC

Alexander Chaptykov in Scrapy
т.е. думаешь там капча?
источник

AR

Andrey Rahmatullin in Scrapy
защита необязательно капча
источник

AR

Andrey Rahmatullin in Scrapy
ну т.е. смотря что там, если условный 403 то одно, а если пустая страница то это я даже не знаю с чего бы
источник