Телеграмм чат группы ceph

Size: a a a

Ceph — русскоговорящее сообщество

1556 membersпожаловаться на группу

2021 March 03

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество

А то и быстрее

источник

16:56пожаловаться #1

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество

Но платформа там ваще другая

источник

16:56пожаловаться #2

Denis in Ceph — русскоговорящее сообщество

да, вполне вероятно, что дело не в настройках
я не уверен что именно может вызывать фриз, может гуру подскажут :) я не сталкивался с такими симптомами
но на микс кластере (5 ссд х 1.92ТБ, 7 х механика 4ТБ) и с более слабыми процессорами 4214 тоже запускалось без фризов.

источник

16:59пожаловаться #3

Denis in Ceph — русскоговорящее сообщество

нюанс - у меня везде SAS, учитывая что у ОП кажется САТА - может быть именно полу-дуплекс и пропускная способность вызывают троттл

источник

17:00пожаловаться #4

ПС

Павел Савин... in Ceph — русскоговорящее сообщество

Denis

мне кажется при таких параметрах системы, и при таком количестве данных, 30 секундный фриз это не нормально.
вообще процесс пиринга я понимаю весьма поверхностно, вероятно Виталий мог бы более детально прокоментировать, но при синхронизации pg_log и при сравнении epoch и состояния групп, насколько я понимаю медленные диски не должны вызывать задержку (именно во время пирринга).
У вас пока 30 секунд фриз - что ceph -s пишет про PG?

 cluster:
    id:     1ba3f6f9-0848-439c-bc23-23aefd1124c9
    health: HEALTH_WARN
            clock skew detected on mon.ceph2.domain, mon.ceph3.domain
            2 osds down
            Reduced data availability: 599 pgs peering
            Degraded data redundancy: 719754/2167023 objects degraded (33.214%), 875 pgs degraded, 936 pgs undersized

  services:
    mon: 3 daemons, quorum ceph1.domain,ceph2.domain,ceph3.domain (age 7s)
    mgr: ceph1.domain(active, since 3s), standbys: ceph2.domain, ceph3.domain
    osd: 54 osds: 52 up (since 136y), 54 in (since 136y)
    rgw: 3 daemons active (ceph1.domain, ceph2.domain, ceph3.domain)

  task status:

  data:
    pools:   10 pools, 1993 pgs
    objects: 722.34k objects, 2.7 TiB
    usage:   9.8 TiB used, 182 TiB / 192 TiB avail
    pgs:     53.036% pgs not active
             719754/2167023 objects degraded (33.214%)
             1057 peering
             875  active+undersized+degraded
             61   active+undersized
  io:
    client:   342 KiB/s rd, 29 MiB/s wr, 42 op/s rd, 714 op/s wr

источник

17:02пожаловаться #5

Denis in Ceph — русскоговорящее сообщество

Alexander mamahtehok

и кстати да уровни 1 10 100 ни разу не спасут от спиловера )))

вы молодой, горячий и куда-то спешите :)
перечитайте еще раз, пожалуйста, вдумчиво, о том как compaction работает. И от того как третий уровень в 100ГБ на разделе в 100ГБ может помочь от спилловера при размере базы свыше 30ГБ. Но если не интересно, не читайте!

источник

17:02пожаловаться #6

Denis in Ceph — русскоговорящее сообщество

За сим - всем приятного дня/вечера! командировка :)

источник

17:03пожаловаться #7

ПС

Павел Савин... in Ceph — русскоговорящее сообщество

может дело в clock skew?

источник

17:03пожаловаться #8

Denis in Ceph — русскоговорящее сообщество

54 in (since 136y) 😂

источник

17:05пожаловаться #9

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество

Павел Савин

может дело в clock skew?

Ясен хрен время важно для клустера

источник

17:06пожаловаться #10

ПС

Павел Савин... in Ceph — русскоговорящее сообщество

вообще странно что там время кривое..

After=network-online.target local-fs.target time-sync.target

источник

17:06пожаловаться #11

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество

ntpd везде надо синхрить

источник

17:06пожаловаться #12

ПС

Павел Савин... in Ceph — русскоговорящее сообщество

так он и есть, видимо не успевает на момент загрузки засинкать

источник

17:06пожаловаться #13

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество

Эмм... ШТО?

источник

17:06пожаловаться #14

ПС

Павел Савин... in Ceph — русскоговорящее сообщество

хотя в systemd after time-sync стоит.

источник

17:06пожаловаться #15

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество

сравни время на нодах

источник

17:07пожаловаться #16

ПС

Павел Савин... in Ceph — русскоговорящее сообщество

время нормальное. Видимо в момент старта osd еще не нормальное. Я не думал что это может так влиять.. Пойду поищу какого хрена оно не успевает засинкать.

источник

17:08пожаловаться #17

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество

for i in `cat nodeip`; do ssh $i 'ntpdate ntp2.stratum2.ru'; done

;-\

источник

17:08пожаловаться #18

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество

Павел Савин

С чего ты решил что не успевает?

источник

17:09пожаловаться #19

А🐎

Александр 🐎... in Ceph — русскоговорящее сообщество

сделай синк времени, перезапусти мониторы и мгр

источник

17:09пожаловаться #20