Ребят, всем привет, помогите с цефом в проде.
Жил был ceph со времен FIREFLY, успешно обновлялся и не вызывал проблем до сегодняшнего дня. Вчера обновил его с luminous до nautilus. Обновление прошло штатно, без каких либо ошибок.
После обновления, в кластере выстреливают slow ops на nvme дисках.
Ceph состоит из 8 нод, в каждой 8 HDD(hdd-pool) + 2 nvme(nvme-pool), между нодами cluster_network 10G.
Slow ops появляются на дисках в nvme-pool, всего в кластере 16 nvme.
8 slow ops, oldest one blocked for 41 sec, daemons [osd.0,osd.12,osd.30,osd.4,osd.40,osd.46,osd.49,osd.5,osd.60,osd.69]
Уменьшил влияние deep-scrub'a. Так же было замечено, что слоу опс генерятся во время compaction у rocksdb.