Size: a a a

2021 February 14

П

Пастырь in Scrapy
Ребят, Scrapy-do есть смысл использовать, или же лучше по старинке с Scrapyd?
источник

К

Кирилл in Scrapy
Пастырь
Ребят, Scrapy-do есть смысл использовать, или же лучше по старинке с Scrapyd?
Если уже умеешь скрапид, то наверное особо нет смысла, там есть разные фичи которых у скрапид нет, но под задачи конечно
источник

П

Пастырь in Scrapy
Scrapyd 2 года не обновлялся, scrapyd-deploy вообще на костылях работает и депрекейтед методах. Поэтому подумываю пощупать этого зверя
источник

К

Кирилл in Scrapy
Но работает же 😁
источник

П

Пастырь in Scrapy
Ахах, не поспоришь :D
источник

К

Кирилл in Scrapy
Можешь ещё зайт скрапи клауд попробовать, очень удобно)
источник

П

Пастырь in Scrapy
Дороговато :D
источник

П

Пастырь in Scrapy
И еще немного непонятно. у меня при команде scrapy genspider генерируется пакет, внутри которого еще пакет. Вот когда я на винде работаю импорты формата
from hh_parser.distionaries.dictionary import * работают отлично, а scrapyd ругается на родительский пакет. Т.е. мне перед деплоем необходимо дописать
from hh_parser.hh_parser.distionaries.dictionary import *
источник

П

Пастырь in Scrapy
Для чего это сделано ?
источник

AR

Andrey Rahmatullin in Scrapy
не понял что именно
источник

AR

Andrey Rahmatullin in Scrapy
что в топлевел каталоге лежит scrapy.cfg и пакет с проектом? ну вот так вот
источник

AR

Andrey Rahmatullin in Scrapy
топлевел каталог в общем-то не пакет
источник

П

Пастырь in Scrapy
У меня пути импорта разные при деплое и при деве
источник

i

i in Scrapy
Harsh
500 request per minute, ~8 per second. It's much imo.

What concurrent request and download delay do you guys prefer?
I prefer AUTOTHROTTLE_ENABLED = True and usually AUTOTHROTTLE_START_DELAY = 1
источник

i

i in Scrapy
If I want to be gentle with server)
источник

i

i in Scrapy
and then it just finds a way...
источник

H

Harsh in Scrapy
i
I prefer AUTOTHROTTLE_ENABLED = True and usually AUTOTHROTTLE_START_DELAY = 1
Thanks for inputs. :)

I used to put 4-5 as download delay usually. And if site is super sensitive, 1 concurrent request.

I've hit a site which is giving 429 (cloud flare based). So will try auto throttle, crawlera probably
источник

H

Harsh in Scrapy
i
If I want to be gentle with server)
Yes. If data isn't required instantly, it's good to be gentle.
источник

i

i in Scrapy
я очень хочу в скрапи поддержку js-рендера искаропки. Относительно легко подключаемую. Без танцев с бубном на splash (дело даже не в докере, а то, что он юзает движок не по-стандарту индустрии), а на чем-то вроде playwright/selenium+chrome/firefox,
источник

i

i in Scrapy
Harsh
Thanks for inputs. :)

I used to put 4-5 as download delay usually. And if site is super sensitive, 1 concurrent request.

I've hit a site which is giving 429 (cloud flare based). So will try auto throttle, crawlera probably
btw crawlera had some problems with AUTOTHROTTLE
источник