Size: a a a

2020 April 16

i

ildar in Scrapy
AUTOTHROTTLE_TARGET_CONCURRENCY = 3.0
источник

i

ildar in Scrapy
я не хочу чтобы сервер тот издох)
источник

G

Georg in Scrapy
Все равно быстро)
источник

i

ildar in Scrapy
это было больше к тому, сколько скрапи может выдать в почти идеальных условиях, где удаленный сервер вообще не влияет, и типа к чему надо стремиться, у меня емнип не получалось больше 4к айтемов в минуту получать. Из кеша то все эти ограничения и задержки не работают, он молотит по-максимуму и там уже в условный lxml упирается похоже.
источник

G

Georg in Scrapy
ildar
это было больше к тому, сколько скрапи может выдать в почти идеальных условиях, где удаленный сервер вообще не влияет, и типа к чему надо стремиться, у меня емнип не получалось больше 4к айтемов в минуту получать. Из кеша то все эти ограничения и задержки не работают, он молотит по-максимуму и там уже в условный lxml упирается похоже.
Я тебя не правильно понял, теперь понятно
источник

G

Georg in Scrapy
Тогда медленно чет
источник

i

ildar in Scrapy
ну тут от сервера обычно зависит, какая у него скорость. у меня еще такого не было чтобы сервер отдавал контент прям близко к тому, что может скрапи выдать - как видишь раза в 2-3 разница бывает по скорости.
источник

i

ildar in Scrapy
ну и вот если он хочет протестить как он близко подошел к пределам - может прогнать  на кэше на быстром ssd сначала без базы, потом с базой, потом без кэша, с базой и без  и поймет сколько база добавляет оверхеда. И стоит ли дальше заморачиваться с ускорением
источник

G

Georg in Scrapy
ildar
ну и вот если он хочет протестить как он близко подошел к пределам - может прогнать  на кэше на быстром ssd сначала без базы, потом с базой, потом без кэша, с базой и без  и поймет сколько база добавляет оверхеда. И стоит ли дальше заморачиваться с ускорением
Любая база заметно тормозит?
источник

G

Georg in Scrapy
Как ты оптимизируешь скорость скачивания и упаковку данных?
источник

i

ildar in Scrapy
не знаю. я еще не тестил, у меня все в файлы пишет.
источник

i

ildar in Scrapy
по кэшу только могу сказать - что скорость работы с дисковым и с leveldb примерно сопоставима. Только leveldb намного меньше файликов в своей базе держит. Удобно когда к примеру лям страниц надо спарсить. Кэш под 100 гигов занимает стока файлов, что на ssd удаляется минут 20-40.
источник

i

ildar in Scrapy
тока вот в последнем скрапи leveldb выпилили)
источник

G

Georg in Scrapy
В scrapyd редис вроде бы используется или я путаю? Просто недавно в теме этой всей)
источник

i

ildar in Scrapy
на leveldb эти 100 гигов были в базе на 100 файликов - ненужный кэш удаляется доли секунды
источник

G

Georg in Scrapy
Что лучше, редис или лвлдб?
источник

G

Georg in Scrapy
Тупой вопрос)
источник

G

Georg in Scrapy
Не отвечай
источник

i

ildar in Scrapy
не знаю. по-идее надо бы сделать решение в виде одной технологии, что для хранения спарсенных данных, что для кэша.
источник

G

Georg in Scrapy
Что такое кэш в скрапи?
источник