чето у меня похоже не то или с Ceph, или с CRUSH:
1. есть 4 класса устройств дляизолыции пулов
2. есть один ec пул для бэкапов, на одном хосте. чисто как замена raid6 помойки. есть кэш к нему, чтобы rbd были изменяемы. два разных девайс классов из этих 4.
3. рекавери тормозит вплоть до таймаутов в виртуалках.
4. сегодня выяснил, что еще и создание снэпшотов тормозит+таймауты.
5 хостов, по 6 osd (ssd) на 4х из них. на пятом - 6 таких же точно osd+6 на hdd под ec пул. заметил, что при создании снэпшота slow ops + htop показывает 100% загрузку ядер ceph-osd процессами.
Куда копать ?