А под cephfs ситуация с удалением снапшотов становится критической ещё быстрее, с увеличением размера кластера и количества объектов.
После превышения двух миллиардов объектов (читай файлов), наблюдался очень сильный троттлинг даже при удалении директорий на клиентах. Удаление снапшота одного из 10 subtree длилось 4-5 часов, удаление больших папок на клиенте 20-30 минут и т.д.
В итоге миграция на рбд и nfs самоделка на pacemaker контейнеры :)