всем привет, парни, подскажите в какую сторону копать.
есть кластер с cephfs на ~230M объектов, клиентов подключено аж два: рсинк, который туда льет файлы и вебсервер, который их раздает. 12 осд кешируются бкешем плюс отдельный db на ssd. иопсов не сильно много, в пределах 2-3к, характер нагрузки постоянный, она там есть уже несколько суток.
периодически всю эту конструкцию рвет в клочья - slow ops на osd и mds, краши осд, заморозка работы с клиентами и т.д. потом все восстанавливается и часами работает нормально.
чую бесовщину, но что крутить в первую очередь - пока не могу понять. само железо точно живое, к нему вопросов нет. из того, что гарантированно вызывает такое поведение пока нашел только ручной вызов osd compact, куда еще надо посмотреть?