Приветстую всех! Коллеги, нужна ваша помощь, есть кластер 3 виртуалки, 3 osd, 3 mon, 1 radosgw, на каждой ноде 4 ядра E5-2630 v2, 16 gb ram, ssd, 10G сеть, osd на xfs по 500gb, в iowait виртуалки не уходят, пишется в кластер довольно редко и мало, после ресайза xfs на одной из нод начал падать на этой же ноде osd
ceph-osd[5927]: tcmalloc: large alloc 1677729792 bytes == 0x560fabf20000 @ 0x7f79b074e1e1 0x7f79ae3c1499 0x7f79ae3c2833 0x560f0241f815 0x560f023ce6aa 0x560f023d5978 0x560f023d6be7 0x560f022f3e30 0x560f022f490a 0x560f02306c44 0x560f0230a
26b 0x560f0230a63d 0x560f026b4861 0x560f026b5960 0x7f79afa486ba 0x7f79adac041d (nil)
systemd его перезапускает и начинается долгое восстановление с заблокированными запросами
health HEALTH_WARN
1 pgs backfilling
150 pgs degraded
149 pgs recovery_wait
150 pgs stuck degraded
150 pgs stuck unclean
1 pgs stuck undersized
1 pgs undersized
8 requests are blocked > 32 sec
recovery 6490/3367710 objects degraded (0.193%)
в логе osd такие сообщение перед падением
2020-05-24 19:49:22.466684 7f79a2964700 1 heartbeat_map is_healthy 'OSD::osd_op_tp thread 0x7f792c7c1700' had timed out after 15.
сеть между osd стабильная, находятся на соседних серверах в стойке, не проседает.
гугление советует повысить значения таймаутов
https://ceph.io/planet/dealing-with-some-osd-timeouts/Возможно подскажете куда копать? Заранее благодарен