Size: a a a

Ceph — русскоговорящее сообщество

2021 March 16

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Влад Григорьев
Ребята, ахтунг. Может кто сталкивался. В кластере практически остановились операции записи, при отсутствии каких-то особых проблем. Чтение с RBD тома в показывает до 30k iops, на запись  стремится к 0. inactive pg нет, с сетью проблем вроде тоже нет. Куда копать?
- Ну ты конечно же сделал ceph --admin-daemon /run/ceph/ceph-osd.0.asok dump_ops_in_flight и определил этап на котором тормозят операции?
- ...
- Как не сделал?!
источник

ВГ

Влад Григорьев... in Ceph — русскоговорящее сообщество
Спасибо за веселый стеб) Но проблема похоже оказалась в одном из интерфейсов кластерной сети.
источник

A

Alex in Ceph — русскоговорящее сообщество
Если тупит цеф, к бабке не ходи — сеть
источник

ВГ

Влад Григорьев... in Ceph — русскоговорящее сообщество
Получилось, кластерная сеть была почти в коме, хотя связность была и пакеты бегали, iperf показывал до 10ГБит. Однако запись в пул стремилась к нулю. Короче вопрос скорее в телеграм канал по инфинибенду, чем по цефу)
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Ну вот если бы посмотрел стату пр окоторую я тебе написал - то увидел бы долгие waiting for rw locks, долгие ожидания коммитов от дочерних OSD и одновременно быстрые коммиты самих слейвов, что в 99% случаев означает проблему в сети
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
Влад Григорьев
Получилось, кластерная сеть была почти в коме, хотя связность была и пакеты бегали, iperf показывал до 10ГБит. Однако запись в пул стремилась к нулю. Короче вопрос скорее в телеграм канал по инфинибенду, чем по цефу)
Т.е исправилось?
источник

ВГ

Влад Григорьев... in Ceph — русскоговорящее сообщество
Виталий На Заборе
Т.е исправилось?
да, задушил кластерную сетевую, сбондил ее с клиенской - и все побежало
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
А, понятно...
источник

ВГ

Влад Григорьев... in Ceph — русскоговорящее сообщество
Artemy Kapitula
Ну вот если бы посмотрел стату пр окоторую я тебе написал - то увидел бы долгие waiting for rw locks, долгие ожидания коммитов от дочерних OSD и одновременно быстрые коммиты самих слейвов, что в 99% случаев означает проблему в сети
спасибо, поизучаю
источник

A

Alex in Ceph — русскоговорящее сообщество
Инфинибренд этот, понавыдумывали говностандартов
источник

ВГ

Влад Григорьев... in Ceph — русскоговорящее сообщество
Alex
Инфинибренд этот, понавыдумывали говностандартов
ага, зла не хватает)
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
Вышел ceph 14.2.18 (Nautilus)

В отмеченных изменениях:
* пофиксили баги привезённые в 14.2.17

https://ceph.io/releases/v14-2-18-nautilus-released/

#ceph #release #nautilus
источник

t

timureh in Ceph — русскоговорящее сообщество
источник

A

Alex in Ceph — русскоговорящее сообщество
С вероятностью 100% знаю ченджлог для .19
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
Новых багов не приехало?
источник

t

timureh in Ceph — русскоговорящее сообщество
на стейдже уже крутимся
источник

t

timureh in Ceph — русскоговорящее сообщество
Alexander mamahtehok
Новых багов не приехало?
хз пока
я ждал 2.17 чтобы обновится с люмы
источник

ПС

Павел Савин... in Ceph — русскоговорящее сообщество
народ, подскажите плз.
Есть вывод команды ceph osd perf.
Чем отличается commit latency и apply.
Как я нагуглил, commit latency - время записи в журнал, а apply на девайс osd..
Но что-то не сходится, так как эти latency у меня равны (bluestore).
источник

k

k0ste in Ceph — русскоговорящее сообщество
Павел Савин
народ, подскажите плз.
Есть вывод команды ceph osd perf.
Чем отличается commit latency и apply.
Как я нагуглил, commit latency - время записи в журнал, а apply на девайс osd..
Но что-то не сходится, так как эти latency у меня равны (bluestore).
Потому что это со времён filestore, на bluestore и должны быть равны
источник

ПС

Павел Савин... in Ceph — русскоговорящее сообщество
k0ste
Потому что это со времён filestore, на bluestore и должны быть равны
Спасибо.
А op write/read latency - это чисто запись на диск?
источник