Size: a a a

Ceph — русскоговорящее сообщество

2020 March 24

D

Dmitry in Ceph — русскоговорящее сообщество
Dmitry
Коллеги, раз в несколько дней на одной из нод случается:

2020-02-04 01:55:34.967241 [WRN]  Health check failed: 1/3 mons down, quorum mos-ceph1,mos-ceph3 (MON_DOWN)

через полминуты всё снова хорошо:

2020-02-04 01:56:00.986111 [INF]  Health check cleared: MON_DOWN (was: 1/3 mons down, quorum mos-ceph1,mos-ceph3)

В логе мона 2020-02-04 01:56:00.899830 7efc9205d700  1 mon.mos-ceph2@1(peon).paxos(paxos updating c 14586866..14587494) lease_timeout -- calling new election

ЦЕПХ 12.2.12

Насколько велика беда и как лечить? Гуглёж плохо помог.
Это опять я) Проблема не забарывается: ntp настроен и работает на всех нодах, с сетью никаких трабл, но мониторы на (на разных нодах) нет-нет, да и down, а потом снова в строю. В логах только сообщения о "кто-то calling monitor election". Сам демон монитора не падает. В логах монитора в момент падения вот это https://pastebin.com/n9AEcMwP

Куда ещё смотреть? Вроде ничего плохого не происходит, но ошибка в дешборде каждый раз огорчает.
источник

АS

Алексей [PEBHOCTb] Sarov in Ceph — русскоговорящее сообщество
логи потерли как спам
источник

А

Александр in Ceph — русскоговорящее сообщество
Алексей [PEBHOCTb] Sarov
Ничего не забыл?))
кластер на нодах с public ip)
интересный кейс....
источник

АS

Алексей [PEBHOCTb] Sarov in Ceph — русскоговорящее сообщество
там кстати автоматом ничего не обновлялось с внешних репозиториев?)
источник

SG

S G in Ceph — русскоговорящее сообщество
Dmitry
Это опять я) Проблема не забарывается: ntp настроен и работает на всех нодах, с сетью никаких трабл, но мониторы на (на разных нодах) нет-нет, да и down, а потом снова в строю. В логах только сообщения о "кто-то calling monitor election". Сам демон монитора не падает. В логах монитора в момент падения вот это https://pastebin.com/n9AEcMwP

Куда ещё смотреть? Вроде ничего плохого не происходит, но ошибка в дешборде каждый раз огорчает.
сетевые линки не флапают?
на портах свичей/сетевухах ошибки есть?
источник

D

Dmitry in Ceph — русскоговорящее сообщество
S G
сетевые линки не флапают?
на портах свичей/сетевухах ошибки есть?
Смотрели -  всё ровно. И на свиче внутренней сети кластера, и на свиче клиентской сети. Сетевухи ни в dmesg ни в прочие сислоги не ругаются. Не понимаю куда ещё глядеть
источник

k

k0ste in Ceph — русскоговорящее сообщество
Dmitry
Смотрели -  всё ровно. И на свиче внутренней сети кластера, и на свиче клиентской сети. Сетевухи ни в dmesg ни в прочие сислоги не ругаются. Не понимаю куда ещё глядеть
chrony юзать
источник

D

Dmitry in Ceph — русскоговорящее сообщество
k0ste
chrony юзать
timedatectl хуже?
источник

k

k0ste in Ceph — русскоговорящее сообщество
Dmitry
timedatectl хуже?
Он для десктопов.
источник

D

Dmitry in Ceph — русскоговорящее сообщество
k0ste
Он для десктопов.
сейчас попробую. Специфическая настройка требуется или просто указать мой ntp сервач?
источник

k

k0ste in Ceph — русскоговорящее сообщество
Dmitry
сейчас попробую. Специфическая настройка требуется или просто указать мой ntp сервач?
## chrony.conf
# Ansible managed: /home/k0ste/ansible/roles/chrony/templates/chrony.j2 modified on 2018-10-01 15:01:46 by k0ste on WorkStation
# Do not edit manually

pool ru.pool.ntp.org iburst
server 192.168.0.193 iburst
makestep 10 1
maxupdateskew 5
bindcmdaddress 0.0.0.0
cmdallow 192.168.100.254/32
cmdport 323
rtconutc
rtcsync
источник

АS

Алексей [PEBHOCTb] Sarov in Ceph — русскоговорящее сообщество
k0ste
Он для десктопов.
это ты откуда взял?)
источник

D

Dmitry in Ceph — русскоговорящее сообщество
k0ste
## chrony.conf
# Ansible managed: /home/k0ste/ansible/roles/chrony/templates/chrony.j2 modified on 2018-10-01 15:01:46 by k0ste on WorkStation
# Do not edit manually

pool ru.pool.ntp.org iburst
server 192.168.0.193 iburst
makestep 10 1
maxupdateskew 5
bindcmdaddress 0.0.0.0
cmdallow 192.168.100.254/32
cmdport 323
rtconutc
rtcsync
спасибо!
источник

ES

Elliot Spencer in Ceph — русскоговорящее сообщество
Валерий
В итоге как сейчас обстановка?
да ничего - виртуалки шуршат, за ночь поднялся от HEATH_ERR до HEATH_WARN - осталось самую малость ...
источник

В

Валерий in Ceph — русскоговорящее сообщество
Ну и очень хорошо
источник

А

Александр in Ceph — русскоговорящее сообщество
я лишь на всякий случай напомню, что наличие Ceph не убирает требование по наличию бекапов :)
Это что бы в случае повторение такого же, не пришлось покупать билет с другую страну)
источник

ВН

Виталий На Заборе in Ceph — русскоговорящее сообщество
Мне нравицо systemd-timesyncd потому что не морочится и накатывает весь дрифт разом =))
источник

ВН

Виталий На Заборе in Ceph — русскоговорящее сообщество
ntpd раньше сколько раз ставишь, а он ни хуя не синхронизирует
источник

В

Валерий in Ceph — русскоговорящее сообщество
Виталий На Заборе
Мне нравицо systemd-timesyncd потому что не морочится и накатывает весь дрифт разом =))
поддерживаю. Вообще стараться следует использовать штатные средства
источник

G

Glor in Ceph — русскоговорящее сообщество
Octopus внезапно есть для Debian Buster
источник