Size: a a a

Ceph — русскоговорящее сообщество

2021 August 18

AN

Andrey Nemysskiy in Ceph — русскоговорящее сообщество
Это все на случай, если надо временно (на часы) вывести ноду из эксплуатации.
Если это дни, то лучше с OSD этих дисков убрать данные (ceph osd out номер_osd) , дождаться ребалансировки, а уж потом выводить ноду.
источник

R

Roman in Ceph — русскоговорящее сообщество
Если цепх 16 и развернут cephadm, то есть флаг maintenance
источник

VO

Vyacheslav Olkhovche... in Ceph — русскоговорящее сообщество
меня тут пытались на cephadm охмурить
источник

ИЕ

Иван Епифанов... in Ceph — русскоговорящее сообщество
Спасибо большое
источник

ИЕ

Иван Епифанов... in Ceph — русскоговорящее сообщество
Ceph nautilus
источник
2021 August 19

R

R-omk in Ceph — русскоговорящее сообщество
Подскажите (хоть что нибудь) , может кто сталкивался,

после бэкфила pg (erasure pool ; cephfs  )   osd  с которой уехали данные начинает освобождать место что ли ,   так вот  из за этого процесса  начинает дико тормозить  client io, фактически в нули останавливается     единственное что можно в этой ситуации сделать  это просто полностью вырубить osd ,
никакие отключения ребалансировок или установка primary-affinity в ноль не помогает,      если osd  включить то она опять что-то делает такое что мешает обслуживать  client io и все укладывается.
..

ceph version 14.2.9


я уже почти месяц почти в ручном режиме слежу за перебалансировкой чтобы вовремя вырубить osd,     если в системе одна  такая osd которая чистит диск то она хоть как то шевелится,  если появится еще одна то хана .

по метрикам видно что osd которая, видимо, удаляет остатки pg    начинает потреблять больше cpu , но не критично,   при этом утилизация диска может быть и сотка, а может быть и совсем помелочи после перезапуска ,  т.е. какойто рандом.    он может с диска то под 100MB/s читать,  то  сидеть в своем обычном режиме с 4MB/s

и это я уже молчу про то как он pg-osd перераспределил при добавлении osd,   oн для erasure  почти везде тупо переставил  позиции чанков (на хост один osd hdd, и для правила failure Domain  это хост )  типа     стало[1, 8, 10, 5, 7]    было[6,8,7,5,10]     ,т.е. накойто хер переставил 10 и 7 местами  из за чего ребалансировка  еще усложнилась  (видимо этот факт еще и привел к знаменитой проблеме когда половина pg застряла в статусе `backfill_tofull),     при этом на такую перестановку `Max Backfills    не влияет (видимо потому что в пределах одного pg),    из за чего фактически пришлось руками останваливать сперва 7 osd  а потом 10 osd  ,    

короче полный пез*дос
источник

k

k0ste in Ceph — русскоговорящее сообщество
Обновись до 14.2.22+, как раз месяц сохранишь
источник

R

R-omk in Ceph — русскоговорящее сообщество
это пока единственно что я могу сделать,  однако я хочу дождатсья когда оно хоть както придет в номрально состояние,  ибо обновляться  при текущем раскладе  крайне ссыкотно
источник

R

R-omk in Ceph — русскоговорящее сообщество
одно дело просто говорить что нужно обновиться,  друге дело знать о том что там действительно могли быть пофикшены баги связанные с описаной симптоматикой.
источник

k

k0ste in Ceph — русскоговорящее сообщество
То есть вариант что тебе говорят и знают в чем проблема ты не рассматриваешь по дефолту?
источник

R

R-omk in Ceph — русскоговорящее сообщество
рассматриваю)  я сейчас уже все варианты рассматриваю 🤷‍♀️
источник

AN

Andrey Nemysskiy in Ceph — русскоговорящее сообщество
С приоритетом дисковых операций не игрался? Или это не влияет?
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
А что за баг к слову?
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
Я вроде пока на наутилусе сидел не натыкался
источник

k

k0ste in Ceph — русскоговорящее сообщество
С удалением или с подсчётом места или с внезапным окончанием WAL или ещё чем?)
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
Ну то что он озвучил - с тормозами при чистке пг
источник

k

k0ste in Ceph — русскоговорящее сообщество
Для этого должно быть нормально объектов, на RBD кластерах это не поймать
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
А......кстати же да
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
Был же там какой-то баг с медленным удалением pg
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
Точно
источник