Size: a a a

Ceph — русскоговорящее сообщество

2020 May 24

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
http://lists.ceph.com/pipermail/ceph-users-ceph.com/2017-September/020891.html @Outlingo а там что, раньше в цефе был какой-то прикол что оно треды запускало постоянно? или оно до сих пор? как можно было упереться в лимит потоков?
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
Виталий На Заборе
Ну и цеф такой...староватый...там не может быть тупо баг?
дело в том что этот кластер работал пару лет стабильно, диск добавлялся всегда по описанной выше схеме
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Виталий На Заборе
http://lists.ceph.com/pipermail/ceph-users-ceph.com/2017-September/020891.html @Outlingo а там что, раньше в цефе был какой-то прикол что оно треды запускало постоянно? или оно до сих пор? как можно было упереться в лимит потоков?
Да нет - там базовые треды стартуются и живут, а на некоторые операции типа бакфила - да - докидывают новых
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
health HEALTH_WARN
           19 pgs degraded
           1 pgs recovering
           18 pgs recovery_wait
           19 pgs stuck unclean
           7 requests are blocked > 32 sec
           recovery 554/3367719 objects degraded (0.016%)

уже 4 часа с переменным колв-ом обьектов висит, osd работает минут 30 и падает
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Андрей Рыбкин
на гипервизоре это единственная виртуалка, raid10 из 4х ssd, iowait нет
А я не спрашивал и не говорил про iowait. Я говорил про утилизацию. Это сильно разные вещи.
P.S.: криво тюненые RGW на много-много мелких объектов были, есть (и будут) источником проблем. Вынесите индексные пулы на отдельные OSD и вам сразу полегчает.
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Андрей Рыбкин
на гипервизоре это единственная виртуалка, raid10 из 4х ssd, iowait нет
Это худшее что можно было придумать
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
В смысле raid10 на 4 SSD
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Хуже только RAID5
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
Artemy Kapitula
А я не спрашивал и не говорил про iowait. Я говорил про утилизацию. Это сильно разные вещи.
P.S.: криво тюненые RGW на много-много мелких объектов были, есть (и будут) источником проблем. Вынесите индексные пулы на отдельные OSD и вам сразу полегчает.
кроме смены порта civetweb никакого тюнинга radosgw не испытывал
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Поэтому у вас и проблемы
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
У вас 3 миллиона объектов в RGW
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Ладно - пусть их там будет миллион.
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
У вас сколько бакетов? Сколько объектов в бакете? Шардированы ли индексы?
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Какие операции прилетают? Много ли операция с бакетами и много ли с объектами?
источник
2020 May 25

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
Artemy Kapitula
У вас сколько бакетов? Сколько объектов в бакете? Шардированы ли индексы?
24 бакета, обьектов в бакетах очень разное кол-во, от 5-10 до 100к, индексы не шардированы, операции прилетают в основном GET, с бакетами операций крайне мало
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Андрей Рыбкин
24 бакета, обьектов в бакетах очень разное кол-во, от 5-10 до 100к, индексы не шардированы, операции прилетают в основном GET, с бакетами операций крайне мало
1. Посмотрите в логах через admin socket какие операции у вас лочатся и с чем они коррелируют (скраб, дип-скраб, рекавер)
2. Добавьте еще OSD и синьте сервисные пулы RGW на них. Три OSD означают что  ваш кластер грубо говоря выполняет одну операцию одновременно поэтому если он втыкается в рекавер - у вас проблемы
3. У вас большие объекты индексов которые надо рекаверить целиком (проблема сефа) поэтому шардинг вам скоей всего поможет и давно нужен
источник

АР

Андрей Рыбкин... in Ceph — русскоговорящее сообщество
Artemy Kapitula
1. Посмотрите в логах через admin socket какие операции у вас лочатся и с чем они коррелируют (скраб, дип-скраб, рекавер)
2. Добавьте еще OSD и синьте сервисные пулы RGW на них. Три OSD означают что  ваш кластер грубо говоря выполняет одну операцию одновременно поэтому если он втыкается в рекавер - у вас проблемы
3. У вас большие объекты индексов которые надо рекаверить целиком (проблема сефа) поэтому шардинг вам скоей всего поможет и давно нужен
1. Спасибо, сейчас буду грепать
2. Какое кол-во osd на ваш взгляд будет оптимально добавить в мою конфигурацию?
3. Активируется сменой параметра bucket_index_max_shards на значение выше нуля в регионе, я верно понимаю?
источник

N

Nikita in Ceph — русскоговорящее сообщество
Artemy Kapitula
Потому что армофилы издают много шума но приносят мало денег
Так взять хотя бы даже те двухевровые инстансы - они же по-факту были медленнее, чем их собственный двухевровый START1-XS на Атомах, кажется. Неудивительно, что их брали только армофилы, удивительно что Scaleway вообще продержали их до 2020. Если бы было действительно интересное предложение по цене и характеристикам - разве люди не стали бы его брать? Надо было прайс назначать адекватно предложению.
источник

S

Serg in Ceph — русскоговорящее сообщество
Пытаюсь тестировать и выбрать оптимальные настройки для нового кластера ceph (версия 13.2.10). Пока создал временный пул test с 128 PG. Прогоняю тест  rados bench с различным числом параллельных потоков. При первом линейном чтении (rados bench seq)получаю скорости порядка 80-90 МБайт/с. При втором таком же тесте скорости чтения 160 МБайт/сек. Понятно, что где-то данные закэшировались. Команды очистки кэша (sync; echo 3 > /proc/sys/vm/drop_caches) не помогают. Как очистить кэш ceph, чтоб получить реальные данные?
источник

AK

Artemy Kapitula in Ceph — русскоговорящее сообщество
Serg
Пытаюсь тестировать и выбрать оптимальные настройки для нового кластера ceph (версия 13.2.10). Пока создал временный пул test с 128 PG. Прогоняю тест  rados bench с различным числом параллельных потоков. При первом линейном чтении (rados bench seq)получаю скорости порядка 80-90 МБайт/с. При втором таком же тесте скорости чтения 160 МБайт/сек. Понятно, что где-то данные закэшировались. Команды очистки кэша (sync; echo 3 > /proc/sys/vm/drop_caches) не помогают. Как очистить кэш ceph, чтоб получить реальные данные?
Тебе надо очищать кэши osd. Стандартно - ищи в admin socket
источник