Size: a a a

Ceph — русскоговорящее сообщество

2020 May 24

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
kiosaku
там, случайно, uuid не менялись?
нет, только ресайз одного диска на одной ноде
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
самое неприятное что восстановление osd > 1 часа и периодически 100-200 blocked requests, которые не дают радосу обрабатывать запросы
источник

k

kiosaku in Ceph — русскоговорящее сообщество
а что-то есть в логах mon.X ?
источник

k

kiosaku in Ceph — русскоговорящее сообщество
помимо логов osd
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
Андрей Рыбкин
самое неприятное что восстановление osd > 1 часа и периодически 100-200 blocked requests, которые не дают радосу обрабатывать запросы
он журнал наверное не успевает реплеить, что ли
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
kiosaku
помимо логов osd
leveldb и data health с доступным местом на диске
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
Виталий На Заборе
он журнал наверное не успевает реплеить, что ли
перед падением osd много сообщений
   -5> 2020-05-24 21:16:11.305079 7fc6ab7fb700  1 heartbeat_map is_healthy 'OSD::osd_op_tp thread 0x7fc67afe0700' had timed out after 15
   -4> 2020-05-24 21:16:11.305080 7fc6ab7fb700  1 heartbeat_map is_healthy 'OSD::osd_op_tp thread 0x7fc67b7e1700' had timed out after 15
   -3> 2020-05-24 21:16:11.305082 7fc6ab7fb700  1 heartbeat_map is_healthy 'OSD::osd_op_tp thread 0x7fc67e7e7700' had timed out after 15
   -2> 2020-05-24 21:16:11.305084 7fc6ab7fb700  1 heartbeat_map is_healthy 'FileStore::op_tp thread 0x7fc6a2e3a700' had timed out after 60
   -1> 2020-05-24 21:16:11.305088 7fc6ab7fb700  1 heartbeat_map is_healthy 'FileStore::op_tp thread 0x7fc6a2e3a700' had suicide timed out after 180
2: (ceph::HeartbeatMap::_check(ceph::heartbeat_handle_d const*, char const*, long)+0x259) [0x560d9bafe7d9]
  1/ 5 heartbeatmap
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
это наверное @Outlingo кастануть надо
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
после очередного рестарта osd (systemd сам пинает) снова долгое восстановление leveldb и
2020-05-24 21:56:44.446979 7f5f00570700  1 leveldb: Moved #668119 to level-5 2127083 bytes OK: files[ 0 6 50 500 4997 13585 0 ]

2020-05-24 21:56:44.866232 7f5f48939700  0 log_channel(cluster) log [WRN] : 76 slow requests, 5 included below; oldest blocked for > 46.809157 secs
2020-05-24 21:56:44.866253 7f5f48939700  0 log_channel(cluster) log [WRN] : slow request 33.251967 seconds old, received at 2020-05-24 21:56:11.614166: osd_op(client.13576715.0:15770001 59.d2dd3d41 (undecoded) ack+read+known_if_redirected e1440) currently queued_for_pg
2020-05-24 21:56:44.866826 7f5efc7f0700  0 log_channel(cluster) log [WRN] : map e1441 wrongly marked me down
2020-05-24 21:56:48.286308 7f5f4dc91700  1 heartbeat_map is_healthy 'OSD::osd_op_tp thread 0x7f5ede9d6700' had timed out after 15
2020-05-24 21:56:53.286428 7f5f4dc91700  1 heartbeat_map is_healthy 'OSD::osd_op_tp thread 0x7f5ede9d6700' had timed out after 15
источник

k

kiosaku in Ceph — русскоговорящее сообщество
пингани узлы, которые упоминаются. может, сеть?
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
0.152ms
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
до обеих нод
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
пингую с падающей
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
пинг стабильный, потерянных пакетов нет
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Проблема с тем что операция на осд длится более 180 секунду после чего вочдог осд делает суицид. Правильное решение помониторить диск осд изнутри вм или снаружи на гипере. Для начала. А там видно будет.
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
Artemy Kapitula
Проблема с тем что операция на осд длится более 180 секунду после чего вочдог осд делает суицид. Правильное решение помониторить диск осд изнутри вм или снаружи на гипере. Для начала. А там видно будет.
на гипервизоре это единственная виртуалка, raid10 из 4х ssd, iowait нет
источник

DB

Dmitry Burlakov in Ceph — русскоговорящее сообщество
Андрей Рыбкин
на гипервизоре это единственная виртуалка, raid10 из 4х ssd, iowait нет
А на гипервизоре что? Ось, какое ядро ?
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
Dmitry Burlakov
А на гипервизоре что? Ось, какое ядро ?
ubuntu 18.04.2 lts, 4.15.0-45-generic #48-Ubuntu SMP
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
Андрей Рыбкин
ubuntu 18.04.2 lts, 4.15.0-45-generic #48-Ubuntu SMP
А дебаг 20/20 включал? Может там чо интересное будет
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
Ну и цеф такой...староватый...там не может быть тупо баг?
источник