Size: a a a

Ceph — русскоговорящее сообщество

2020 March 24

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
те же с балалайками
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
cluster:
   id:     207605f5-38e4-4866-8c32-339ab227a0d1
   health: HEALTH_WARN
           1 MDSs report slow metadata IOs
           108118/1876554 objects misplaced (5.762%)
           Reduced data availability: 659 pgs inactive, 414 pgs peering
           Degraded data redundancy: 22650/1876554 objects degraded (1.207%), 9 pgs degraded, 10 pgs undersized
           15 slow requests are blocked > 32 sec. Implicated osds 16

 services:
   mon: 3 daemons, quorum c5,c1,c3
   mgr: c3(active), standbys: c5, c4, c2, c1, c6
   mds: onefs-1/1/1 up  {0=c4=up:active}, 3 up:standby
   osd: 25 osds: 22 up, 21 in; 185 remapped pgs

 data:
   pools:   5 pools, 1024 pgs
   objects: 625.5 k objects, 1.7 TiB
   usage:   5.9 TiB used, 29 TiB / 35 TiB avail
   pgs:     64.355% pgs not active
            22650/1876554 objects degraded (1.207%)
            108118/1876554 objects misplaced (5.762%)
            350 active+clean
            301 peering
            186 activating
            113 remapped+peering
            52  activating+remapped
            7   active+remapped+backfill_wait
            7   activating+undersized+degraded+remapped
            4   active+remapped+backfilling
            2   active+undersized+degraded+remapped+backfilling
            1   active+clean+remapped
            1   active+undersized+remapped+backfilling
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
опять 16 застрял
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
хотя клиентских запросов нет, сетку снаружи тоже заткнул (вроде)
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
[root@c2 ~]# ceph pg ls | grep activating | wc -l
245
[root@c2 ~]# ceph pg ls | grep peering | wc -l  
414
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
пиринг уменьшается, было 424
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
зато activating растет
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
вот еще такая фигня в осд логе
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
2020-03-23 22:47:01.217503 7fe64434c700  0 -- 10.0.5.1:6800/2760 >> 10.0.5.5:6800/3132892 conn(0x55fa40e63800 :6800 s=STATE_ACCEPTING_WAIT_CONNECT_MSG_AUTH pgs=0 cs=0 l=0).handle_connect_msg accept connect_seq 4660778 vs existing csq=4660777 existing_state=STATE_STANDBY
источник

ВН

Виталий На Заборе in Ceph — русскоговорящее сообщество
Не знаю что это, но сети хуево, видимо
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
a что вот это такое ? 2020-03-23 23:01:09.283188 7f1ce2a20700 -1 failed to decode message of type 80 v6: buffer::malformed_input: void object_stat_sum_t::decode(ceph::buffer::list::iterator&) decode past end of struct encoding
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
в логе одного осд такое валит
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Elliot Spencer
сата, на паре хостов ссд, кластерная сетка бонд 2х1гиг
Какая прелесть. Минус 4 OSD и два гигабита сеть. Мы разместим твое фото где-то между клаудмаусом, росреестром и однонодовым кластером в 500TB
источник

ВН

Виталий На Заборе in Ceph — русскоговорящее сообщество
Elliot Spencer
a что вот это такое ? 2020-03-23 23:01:09.283188 7f1ce2a20700 -1 failed to decode message of type 80 v6: buffer::malformed_input: void object_stat_sum_t::decode(ceph::buffer::list::iterator&) decode past end of struct encoding
Какое то плохое сообщение. Пакеты в сети бьютца? Версии цефа на нодах не совпадают?
источник

ВН

Виталий На Заборе in Ceph — русскоговорящее сообщество
Останови в конце концов этот осд и посмотри сможет ли оно без него хоть в какое то состояние прийти
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
1. Установить nobackfill
2. Пролемные и подозрительные OSD остановить
3. Дать сефу запириться. Все PG должны принять статус active или peered
4. Потому разрешить бакфилл
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
На говносети только так. Изолируй аваию на проблемы и решай их по одной.
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
не совпадают😱
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
мать перемать таки разные версии
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
блин а что же теперь делать-то
источник