Size: a a a

Ceph — русскоговорящее сообщество

2020 June 24

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество
NVMe то хоть не говно?
Model Number:                       INTEL SSDPE2KE076T8
Firmware Version:                   VDV10170
Total NVM Capacity:                 7,681,501,126,656 [7.68 TB]
источник

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество
Дмитрий Дятлов
NVMe то хоть не говно?
Model Number:                       INTEL SSDPE2KE076T8
Firmware Version:                   VDV10170
Total NVM Capacity:                 7,681,501,126,656 [7.68 TB]
TLC, конденсаторы - не говно
источник

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество
Господа, очень Вас прошу дать наводку, дело в том, что кластер Red Hat Ceph 4, установленный на тестовом железе(оно старое, годиться только для тестов, в нем 6 узлов, на каждой из которых по 11 дисков sata osd не первой свежести, 2NICх10Gbps, 128 GB RAM, 3-5 летней давности 2x6 CPU (24 threads)). Кластер при одновременном тестировании всего лишь на двух VM с rbd, в произвольный момент времени может начать выдавать slow ops, после чего, latency на запись поднимается до 10-20 минут
источник

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество
Денис Андреев
Господа, очень Вас прошу дать наводку, дело в том, что кластер Red Hat Ceph 4, установленный на тестовом железе(оно старое, годиться только для тестов, в нем 6 узлов, на каждой из которых по 11 дисков sata osd не первой свежести, 2NICх10Gbps, 128 GB RAM, 3-5 летней давности 2x6 CPU (24 threads)). Кластер при одновременном тестировании всего лишь на двух VM с rbd, в произвольный момент времени может начать выдавать slow ops, после чего, latency на запись поднимается до 10-20 минут
Проблема то в чем?
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
Дмитрий Дятлов
Проблема то в чем?
В RHC4 на старом железе вестимо 🤣
источник

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество
Alexander mamahtehok
В RHC4 на старом железе вестимо 🤣
Просто прилетел конфиг железа, а описания проблемы нет )
источник

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество
и даже вопроса нет )
источник

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество
Случайно не дописал)
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
Денис Андреев
Случайно не дописал)
рискуешь 😂
источник

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество
Сверху исправил, сейчас ещё детали раскрою
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
ищи в логах где операция стакается
источник

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество
Денис Андреев
Господа, очень Вас прошу дать наводку, дело в том, что кластер Red Hat Ceph 4, установленный на тестовом железе(оно старое, годиться только для тестов, в нем 6 узлов, на каждой из которых по 11 дисков sata osd не первой свежести, 2NICх10Gbps, 128 GB RAM, 3-5 летней давности 2x6 CPU (24 threads)). Кластер при одновременном тестировании всего лишь на двух VM с rbd, в произвольный момент времени может начать выдавать slow ops, после чего, latency на запись поднимается до 10-20 минут
Рекомендую проверить сеть между всеми нодами кластера.
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
вероятнее всего какой-то диск на издыании
источник

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество
Дмитрий Дятлов
Рекомендую проверить сеть между всеми нодами кластера.
осдшки отстреливались бы
источник

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество
Alexander mamahtehok
осдшки отстреливались бы
не факт
источник

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество
у меня было уже, что OSD не отваливаются но ceph стал раком
источник

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество
Я провел кучу тестов, но не имея опыт в подобном деле не могу их оценить(понять на сколько мои показатели соответствуют норме для такого железа), проверял iperf между всеми узлами, fio на линейную и рандомную запись, самое главное, что он может не выдать slow ops при тестах, а например при mkfs на обычный rbd
источник

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество
Но недавно я решил попробовать ещё один вариант, вот что вышло: накатил kolla-ansible train вместе с Ceph, хотел проверить сразу 10 ВМ. Линейную запись обычно проходит, а вот на рандомной записи(параллельно на 10 вм) за 30 секунд поднимает slow ops до 300
источник

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество
И держит так довольно долго
источник

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество
Ещё одна особенность в том, что если создать нереплицируемыц пул (size=1), то вероятность slow ops крайне мала, у меня в итоге не хватило терпения провести тесты до конца, так и не получил ошибку
источник