Подскажите (хоть что нибудь) , может кто сталкивался,
после бэкфила pg (erasure pool ; cephfs ) osd с которой уехали данные начинает освобождать место что ли , так вот из за этого процесса начинает дико тормозить client io, фактически в нули останавливается единственное что можно в этой ситуации сделать это просто полностью вырубить osd ,
никакие отключения ребалансировок или установка primary-affinity в ноль не помогает, если osd включить то она опять что-то делает такое что мешает обслуживать client io и все укладывается.
..
ceph version 14.2.9
я уже почти месяц почти в ручном режиме слежу за перебалансировкой чтобы вовремя вырубить osd, если в системе одна такая osd которая чистит диск то она хоть как то шевелится, если появится еще одна то хана .
по метрикам видно что osd которая, видимо, удаляет остатки pg начинает потреблять больше cpu , но не критично, при этом утилизация диска может быть и сотка, а может быть и совсем помелочи после перезапуска , т.е. какойто рандом. он может с диска то под 100MB/s читать, то сидеть в своем обычном режиме с 4MB/s
и это я уже молчу про то как он pg-osd перераспределил при добавлении osd, oн для erasure почти везде тупо переставил позиции чанков (на хост один osd hdd, и для правила failure Domain это хост ) типа стало[1, 8, 10, 5, 7] было[6,8,7,5,10] ,т.е. накойто хер переставил 10 и 7 местами из за чего ребалансировка еще усложнилась (видимо этот факт еще и привел к знаменитой проблеме когда половина pg застряла в статусе `backfill_tofull), при этом на такую перестановку `Max Backfills
не влияет (видимо потому что в пределах одного pg), из за чего фактически пришлось руками останваливать сперва 7 osd а потом 10 osd ,
короче полный пез*дос