Size: a a a

Ceph — русскоговорящее сообщество

2020 June 16

IF

Irek Fasikhov in Ceph — русскоговорящее сообщество
Irek Fasikhov
эм, nvme не помирает случаем?
снимай статистику с nvme. На перегрев в том числе. При перегреве тротлинг только в путь срабатывает
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
Dmitry Polyakov
я правильно вижу, что у вас 138ms на запись?
правльно, но это только во время campact
источник

DP

Dmitry Polyakov in Ceph — русскоговорящее сообщество
Alexandr Andreichikov
правльно, но это только во время campact
попробуйте удалить-добавить с нуля одну из осд на нвме диске.
источник

DP

Dmitry Polyakov in Ceph — русскоговорящее сообщество
и посмотрите на ее жизнь
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
там вместе с обновай опция для rocksdb прилетела max_background_compactions=2
могла ли она так повлиять?
в luminous её не было
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
Dmitry Polyakov
попробуйте удалить-добавить с нуля одну из осд на нвме диске.
Пробовал, ситуация не поменялась
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
у нас еще прайм тайм сейчас, особо не поэкспериментировать(
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
Dmitry Polyakov
о, а в свап там ничего не уехало?
свап отключен
источник

IF

Irek Fasikhov in Ceph — русскоговорящее сообщество
Alexandr Andreichikov
у нас еще прайм тайм сейчас, особо не поэкспериментировать(
отключи на время deep-scrub
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
черевато же
источник

DP

Dmitry Polyakov in Ceph — русскоговорящее сообщество
Alexandr Andreichikov
черевато же
на время - ничем не чревато
источник

DP

Dmitry Polyakov in Ceph — русскоговорящее сообщество
вы же отключали его в момент обновления?
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
osd           advanced osd_scrub_chunk_max            2                                      
 osd           advanced osd_scrub_chunk_min            1                                      
 osd           advanced osd_scrub_sleep                0.200000
 osd           advanced osd_max_scrubs                 1
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
я установил такие значение после обновление
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
когда слоу опс уже были
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
интересно почему до обновления было норм а после нет, что могло так повлиять на производительность
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
{
                       "time": "2020-06-16 21:57:08.129166",
                       "event": "waiting for subops from 15,60"
                   },
                   {
                       "time": "2020-06-16 21:57:08.131402",
                       "event": "op_commit"
                   },
                   {
                       "time": "2020-06-16 21:57:08.139135",
                       "event": "sub_op_commit_rec"
                   },
                   {
                       "time": "2020-06-16 21:57:51.092090",
                       "event": "sub_op_commit_rec"
                   },
                   {
                       "time": "2020-06-16 21:57:51.092133",
                       "event": "commit_sent"
                   },
                   {
                       "time": "2020-06-16 21:57:51.092155",
                       "event": "done"
                   }
Скажите пожалуйста, а я правильно понимаю, что событие sub_op_commit_rec занимает 43 секунды?
Это вывод из
ceph daemon /var/run/ceph/osd.0.asok dump_historic_ops_by_duration
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Dmitry Polyakov
я правильно вижу, что у вас 138ms на запись?
У него очередь 213 🙂
источник

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество
Alexandr Andreichikov
Ребят, всем привет, помогите с цефом в проде.
Жил был ceph со времен FIREFLY, успешно обновлялся и не вызывал проблем до сегодняшнего дня. Вчера обновил его с luminous до nautilus. Обновление прошло штатно, без каких либо ошибок.
После обновления, в кластере выстреливают slow ops на nvme дисках.
Ceph состоит из 8 нод, в каждой 8 HDD(hdd-pool) + 2 nvme(nvme-pool), между нодами cluster_network 10G.  
Slow ops появляются на дисках в nvme-pool, всего в кластере 16 nvme.  
8 slow ops, oldest one blocked for 41 sec, daemons [osd.0,osd.12,osd.30,osd.4,osd.40,osd.46,osd.49,osd.5,osd.60,osd.69]
Уменьшил влияние deep-scrub'a. Так же было замечено, что слоу опс генерятся во время compaction у rocksdb.
Сами ноды ребутали после апгрейда?
источник

AA

Alexandr Andreichiko... in Ceph — русскоговорящее сообщество
нет
источник