Телеграмм чат группы ceph

2020 June 24

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество

NVMe то хоть не говно?
Model Number: INTEL SSDPE2KE076T8
Firmware Version: VDV10170
Total NVM Capacity: 7,681,501,126,656 [7.68 TB]

источник

00:47пожаловаться #1

ВН

Виталий На Заборе... in Ceph — русскоговорящее сообщество

Дмитрий Дятлов

NVMe то хоть не говно?
Model Number: INTEL SSDPE2KE076T8
Firmware Version: VDV10170
Total NVM Capacity: 7,681,501,126,656 [7.68 TB]

TLC, конденсаторы - не говно

источник

00:49пожаловаться #2

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество

Господа, очень Вас прошу дать наводку, дело в том, что кластер Red Hat Ceph 4, установленный на тестовом железе(оно старое, годиться только для тестов, в нем 6 узлов, на каждой из которых по 11 дисков sata osd не первой свежести, 2NICх10Gbps, 128 GB RAM, 3-5 летней давности 2x6 CPU (24 threads)). Кластер при одновременном тестировании всего лишь на двух VM с rbd, в произвольный момент времени может начать выдавать slow ops, после чего, latency на запись поднимается до 10-20 минут

источник

01:01пожаловаться #3

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество

Денис Андреев

Господа, очень Вас прошу дать наводку, дело в том, что кластер Red Hat Ceph 4, установленный на тестовом железе(оно старое, годиться только для тестов, в нем 6 узлов, на каждой из которых по 11 дисков sata osd не первой свежести, 2NICх10Gbps, 128 GB RAM, 3-5 летней давности 2x6 CPU (24 threads)). Кластер при одновременном тестировании всего лишь на двух VM с rbd, в произвольный момент времени может начать выдавать slow ops, после чего, latency на запись поднимается до 10-20 минут

Проблема то в чем?

источник

01:04пожаловаться #4

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество

Дмитрий Дятлов

Проблема то в чем?

В RHC4 на старом железе вестимо 🤣

источник

01:05пожаловаться #5

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество

Alexander mamahtehok

В RHC4 на старом железе вестимо 🤣

Просто прилетел конфиг железа, а описания проблемы нет )

источник

01:06пожаловаться #6

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество

и даже вопроса нет )

источник

01:06пожаловаться #7

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество

Случайно не дописал)

источник

01:07пожаловаться #8

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество

Денис Андреев

Случайно не дописал)

рискуешь 😂

источник

01:07пожаловаться #9

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество

Сверху исправил, сейчас ещё детали раскрою

источник

01:07пожаловаться #10

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество

ищи в логах где операция стакается

источник

01:09пожаловаться #11

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество

Денис Андреев

Господа, очень Вас прошу дать наводку, дело в том, что кластер Red Hat Ceph 4, установленный на тестовом железе(оно старое, годиться только для тестов, в нем 6 узлов, на каждой из которых по 11 дисков sata osd не первой свежести, 2NICх10Gbps, 128 GB RAM, 3-5 летней давности 2x6 CPU (24 threads)). Кластер при одновременном тестировании всего лишь на двух VM с rbd, в произвольный момент времени может начать выдавать slow ops, после чего, latency на запись поднимается до 10-20 минут

Рекомендую проверить сеть между всеми нодами кластера.

источник

01:09пожаловаться #12

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество

вероятнее всего какой-то диск на издыании

источник

01:09пожаловаться #13

Am

Alexander mamahtehok in Ceph — русскоговорящее сообщество

Дмитрий Дятлов

Рекомендую проверить сеть между всеми нодами кластера.

осдшки отстреливались бы

источник

01:10пожаловаться #14

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество

Alexander mamahtehok

осдшки отстреливались бы

не факт

источник

01:10пожаловаться #15

ДД

Дмитрий Дятлов... in Ceph — русскоговорящее сообщество

у меня было уже, что OSD не отваливаются но ceph стал раком

источник

01:11пожаловаться #16

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество

Я провел кучу тестов, но не имея опыт в подобном деле не могу их оценить(понять на сколько мои показатели соответствуют норме для такого железа), проверял iperf между всеми узлами, fio на линейную и рандомную запись, самое главное, что он может не выдать slow ops при тестах, а например при mkfs на обычный rbd

источник

01:12пожаловаться #17

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество

Но недавно я решил попробовать ещё один вариант, вот что вышло: накатил kolla-ansible train вместе с Ceph, хотел проверить сразу 10 ВМ. Линейную запись обычно проходит, а вот на рандомной записи(параллельно на 10 вм) за 30 секунд поднимает slow ops до 300

источник

01:16пожаловаться #18

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество

И держит так довольно долго

источник

01:16пожаловаться #19

ДА

Денис Андреев... in Ceph — русскоговорящее сообщество

Ещё одна особенность в том, что если создать нереплицируемыц пул (size=1), то вероятность slow ops крайне мала, у меня в итоге не хватило терпения провести тесты до конца, так и не получил ошибку

источник

01:17пожаловаться #20