Вот надо им называть одним словом разные операции... Но все равно это не выход из строя дисков - у тебя при этом сощдаются новые осд и просто идет бэкфил, а не доливка пропущенного, не?
да, именно так. при етом действует крутилка max_backfills (1 по умолчанию), значит в единицу времени будет на один диск одна пг писаться. что например я вижу прям щас, када наливаются 12 дисков:
а када расползается после аута диска, то крутилка osd_recovery_max_hdd (если хдд), по умолчанию 3. причем пишется то не на один диска а на все, потому что расползается по всем. и там сильно быстрее получается
хотя постойте. создание нового ето не возвращение из аута старого. там будет больше пг одновременно перемещаться. тут я протупил. но все равно это получается в разы медленнее чем рекавер.
а вот када просто удаляешь или он сам отъехал посреди ночи - тут все бросаем и начинаем дрочить весь кластер, стремясь быстрее восстановить число реплик
кажется все же osd_recovery_max_active это не про количество бэкфилов а про число воркеров которые вычитывают имеющуюся на диске информацию и чекающую её. в основном из роксдб. такое у меня впечетление сложилось после беглого взгляда на исходники. а бэкфилы один фиг будут регулироваться osd_max_backfills
всем привет, а куда подключается команда ceph? что должно быть доступно, а то кластер подвис на всяких e8 get_health_metrics reporting 1 slow ops, oldest is auth