Size: a a a

2020 April 16

VB

Vladyslav Babych in Scrapy
Andrey Rahmatullin
сунуть это в def parse, а в start_requests реквестить какой-нибудь ненужный урл
Мне старт реквест тогда вообще не нужен
источник

VB

Vladyslav Babych in Scrapy
Просто логику переместить в parse?
источник

AR

Andrey Rahmatullin in Scrapy
в таком случае достаточно start_urls, да
источник

VB

Vladyslav Babych in Scrapy
Andrey Rahmatullin
в таком случае достаточно start_urls, да
Не сильно помогло. Самое интересное что он на 2 минуте показывает пик порядка 40 items/min. А потом по 20 тянет
источник

B

Bulatbulat48 in Scrapy
а самописный с какой скоростью вначале и потом?
источник

VB

Vladyslav Babych in Scrapy
Этих деталей я незнаю
источник

И

Илья in Scrapy
есть где то куча примеров пауков, с использованием как можно большего функционала  ?
источник

i

ildar in Scrapy
Vladyslav Babych
Не сильно помогло. Самое интересное что он на 2 минуте показывает пик порядка 40 items/min. А потом по 20 тянет
А по бегая по кэшированным данным какую скорость показывает?
источник

VB

Vladyslav Babych in Scrapy
ildar
А по бегая по кэшированным данным какую скорость показывает?
Не больше 50 в минуту
источник

VB

Vladyslav Babych in Scrapy
Сколько потоков я бы не запускал
источник

i

ildar in Scrapy
Где-то ты мощно ошибаешься значит, если на кешированных данных выдает 50 в минуту. На какой машине ты это запускаешь? Проц, память?
источник

М

Мак in Scrapy
Причём тут потоки??
источник

М

Мак in Scrapy
Кэш - это ж практически моментально...
источник

М

Мак in Scrapy
ildar
Где-то ты мощно ошибаешься значит, если на кешированных данных выдает 50 в минуту. На какой машине ты это запускаешь? Проц, память?
По любому где то жуткий тормоз в коде стоит
источник

i

ildar in Scrapy
Я не знаю почему он к ним так привязан, обычно с одного IP есть какой-то оптимал  потоков, выше которого наоборот, начинается замедление
источник

i

ildar in Scrapy
И да, на кэшированных данных все эти download delay не используются и должно выдавать в идеале где-то 3-4к итемов в минуту на относительно хорошей машине (аля какой-нить i5/ryzen/xeon). А кэш на SSD?
источник

М

Мак in Scrapy
И, чего за потоки то? У скрапи один же поток вроде
источник

i

ildar in Scrapy
Он про настройки concurrent
источник

i

ildar in Scrapy
Короче ударился в какие-то микро оптимизации, а при этом там в коде где-то засел глобальный косяк, 50 айтемов в минуту на кэшированных данных, из кэша, это оочень медленно.
источник

М

Мак in Scrapy
Нафиг их вообще трогать, тем более в сторону увеличения...
источник