Size: a a a

Ceph — русскоговорящее сообщество

2021 October 20

M

Mkhl in Ceph — русскоговорящее сообщество
Привет, кто-ниудь сталкивался с таким? Как найти причину таких slow ops?
2021-10-20 05:58:47.305 7f10eee72700  0 log_channel(cluster) log [WRN] : slow request osd_op(client.948707820.0:320090173 11.6bf 11:fd783715:::rbd_data.42cbefddcfffdc.00000000000027fa:head [wr
ite 3391488~4096] snapc 0=[] ondisk+write+known_if_redirected e3166251) initiated 2021-10-20 05:58:16.972585 currently waiting for sub ops
2021-10-20 05:58:47.305 7f10eee72700 -1 osd.160 3166251 get_health_metrics reporting 1 slow ops, oldest is osd_op(client.948707820.0:320090173 11.6bf 11:fd783715:::rbd_data.42cbefddcfffdc.0000
0000000027fa:head [write 3391488~4096] snapc 0=[] ondisk+write+known_if_redirected e3166251)
источник

VO

Vyacheslav Olkhovche... in Ceph — русскоговорящее сообщество
наиболее частая причина -- сеть, потом диск
источник

К

Камиль in Ceph — русскоговорящее сообщество
В journalctl появятся строки про raid-контроллер или про scsi если проблема с дисками/контроллером.
Вот так, например:
kernel: sd 0:0:17:0: WARNING: (0x06:0x002C): Command (0x8a) timed out, resetting card.
kernel: 3w-sas: scsi0: ERROR: (0x06:0x0011): Controller not ready during reset sequence.
источник

M

Mkhl in Ceph — русскоговорящее сообщество
проблема возникает на разных OSD
Oct 20 13:34:36 ceph-osd[1830762]: 2021-10-20 13:34:36.184 7f1a59a5c700 -1 bdev(0x55ad8bbd2380 /var/lib/ceph/osd/ceph-155/block) aio_submit retries 12
Oct 20 13:34:36 ceph-osd[1830762]: 2021-10-20 13:34:36.187 7f1a53a50700 -1 bdev(0x55ad8bbd2380 /var/lib/ceph/osd/ceph-155/block) aio_submit retries 15
Oct 20 13:34:36 ceph-osd[1830762]: 2021-10-20 13:34:36.188 7f1a5aa5e700 -1 bdev(0x55ad8bbd2380 /var/lib/ceph/osd/ceph-155/block) aio_submit retries 8
Oct 20 13:34:36  ceph-osd[1830762]: 2021-10-20 13:34:36.193 7f1a5aa5e700 -1 bdev(0x55ad8bbd2380 /var/lib/ceph/osd/ceph-155/block) aio_submit retries 6
Oct 20 13:36:00  ceph-osd[521418]: 2021-10-20 13:36:00.232 7fcb3a070700 -1 osd.158 3166296 get_health_metrics reporting 1 slow ops, oldest is osd_op(client.1098715021.0:57
источник

M

Mkhl in Ceph — русскоговорящее сообщество
aio_submit retries - не может пропихнуть на диск?
источник

W

Wild_Wind in Ceph — русскоговорящее сообщество
Похожее было, когда пяток апп из оперативы выгружал данные на одном фуллхдд днищецефе, харды просто не успевали записать такой поток данных.
источник

M

Mkhl in Ceph — русскоговорящее сообщество
только это ssd диски
источник

DB

Damir Bikmukhametov in Ceph — русскоговорящее сообщество
Хотя бы не nvme? =)
источник

VO

Vyacheslav Olkhovche... in Ceph — русскоговорящее сообщество
а если нам на клиентов положить, что можно при неизменном osd_max_backfills подкрутить для ускореня бэкфила?

уже стоит

osd_recovery_max_active=100
osd_recovery_sleep_hdd=0
osd_recovery_sleep_hybrid=0
источник

n🐈

nikoinlove 🐈 in Ceph — русскоговорящее сообщество
op_priority?
источник

VO

Vyacheslav Olkhovche... in Ceph — русскоговорящее сообщество
1
источник

VO

Vyacheslav Olkhovche... in Ceph — русскоговорящее сообщество
нагрузка довольно мала, потому и говорю что на клиентов положить.
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
так бекфилы подкрути )
источник

VO

Vyacheslav Olkhovche... in Ceph — русскоговорящее сообщество
не могу
источник

VO

Vyacheslav Olkhovche... in Ceph — русскоговорящее сообщество
у меня будет недостаточно pg для подкручивания, я хочу что бы оставшиеся быстрее доехали
источник

VO

Vyacheslav Olkhovche... in Ceph — русскоговорящее сообщество
ну когда останется только 3-5 pg недоехавших, что бы не 8 часов ждать, а быстрее
источник

M

Mkhl in Ceph — русскоговорящее сообщество
нет, ssd sata SAMSUNG MZ7LH7T6HMLA-00005
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
тогда наверно только osd_recovery_op_priority задрать
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
сколько там макисиму 64 вроде
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
на память не помню
источник