Size: a a a

2021 July 20

A

Alex in ctodailychat
я там руку сломал
источник

КБ

Константин Белинский... in ctodailychat
Уважаемые может немножко не по теме, но вдруг кто посоветует спеца...
Есть самосборная софтовая система хранения (железо супермикра, все параметры согласовывались), софт хранилки RAIDIX. Настроенна как NAS, шары по самбе, с миром коннект на 40Гб, дальше циска 3064, из нее в монтажки по 10Гб, монтажки на маках, основной софт Davinci, объем ни много ни мало почти 2 петабайта, назначение - хранение исходников со съемок, из которых логгеры потом готовят материал для монтажеров. В какой-то момент все это чудо начало тормозить. Причем не то чтобы это все не работало, а в какие-то моменты скорости обмена падают в 0 и через некоторое время восстанавливаются, мониторинги всего и вся не показывают что либо критическое (или мы чтото не домониториваем =) ).
Если что вопрос не про холивар какой рэйдикс плохой или хороший (что досталось то досталось), а касательно того как бы найти то самое бутылочное горлышко. С системой работает 4 монтажера, что с точки зрения нагрузки почти ничего. Но где-то есть тормоза и мы ни как не можем их найти, нужна помощь, чтобы разобраться, что не так с системой. Система не новая ей уже почти три года, все работало как часы,  но вот последние пару месяцев началось...
Идей куда смотреть уже была тьма, мониторили физику сети, загрузки процов, иопсы, на вид все не то чтобы под какой-то нагрузкой а вообще без нагрузки. Работаем не с кучей мелких файлов а с большими файлами с видео, даже если покадровые съемки то всеравно это 4-8К некомпресированные raw форматы, где кадр в легкую занимает 50-100 мегабайт. в общем мы в каком-то тупике что искать, нужна помощь. Буду рад наводке на спеца кто сможет нам помочь. Еще раз извиняюсь если не в тему...
источник

A

Alex in ctodailychat
я ни разу не спец, но стандартный подход исключать звенья из цепи... ну типа приехать с маком в датацентр в обход провайдера и циски
источник

КБ

Константин Белинский... in ctodailychat
Да, забыл написать директ коннекты в первую очередь пробовали
источник

A

Alex in ctodailychat
т.е. тупит 100% либо сам NAS либо реализация самбы?
источник

КБ

Константин Белинский... in ctodailychat
мои последние мысли это 3 варианта:
1) то как работает софтовая реализация рэйда
2) рэйдикс как файловую систему использует XFS, возможно гдето то там проблемма
3) то как работает самба

1 очень сложно отмониторить, вроде общаемся с рэйдиксовцами, но чтото не очень получается, говорят что все в норме
2 и 3 для меня какраз очень сложные пункты, я не хардкорный линуксоид, не понимаю как можно отмониторить чтото в работе файловой системы и самбы

есть еще 4 момент который недоавно вылез но пока не совсем подтвержденный, это то как работает davinci возможно (но очень пока маловероятно) что дело в ней, эту сторону мы пока пытаемся проработать, собрав стенд на котором пробуем связки версии макос и версии давинчи
источник

A

Alex in ctodailychat
ох, очень много всего может быть... а в системе хранения есть доп. быстрый SSD для кеширования? если да, надо смотреть cache hit rate. Не знаю, если такие метрики у Раудикса, правда.

еще может посмотреть в логах, не поменялся ли размер чанков чтения/записи, ну типа было 10Kб в новой версии софта стало 24Кб и все поехало...
источник

КБ

Константин Белинский... in ctodailychat
про первое что с кэшем что без разницы нет, тоже проверили, у рэйдикса он действительно очень специфический, и да мониторится и в него почти ни чего не попадает

а вот про чанки это уже интересно, Как минимум что-то новое, даже не думал в эту сторону думать
источник

A

Alex in ctodailychat
я бы поискал какойнибудь русский телеграм-чат или форум инфосеков, которые ставят промышленные системы видеонаблюдения (ну типа в масштабе завода или аэропорта), они в такое хорошо умеют
источник

A

Artur in ctodailychat
@Onlinehead @Masalsky умеют линус дебажить с завязанными глазами
источник

A

Alex in ctodailychat
может даже на хабре поискать статьи и спросить у автора в личке...
источник

O

Onlinehead in ctodailychat
Главный вопрос. Сядь, возьми в руки бутылочку пива, стаканчик коньяка или мороженое (по вкусу) и вспомни, что происходило в момент начала тормозов или чуть до него. Обновления? Новый работник? Розетку сменили? Начальник купил новое авто? Что угодно, вспоминай все и пиши на листочек. Оттуда можно начинать думать.
источник

O

Onlinehead in ctodailychat
Само по себе ничего не ломается, что-то должно было произойти. Может в хранилище залили много данных. Или наоборот удалили, хотя не удаляли до этого. Сеть переделали. Новые компы, что угодно.
источник

КБ

Константин Белинский... in ctodailychat
про начальника отпадает, я авто не покупал =)
источник

КБ

Константин Белинский... in ctodailychat
вот тут мне интересно стало, тк удалять нет а заливаем очень большие объемы
источник

КБ

Константин Белинский... in ctodailychat
как это влиять может
источник

КБ

Константин Белинский... in ctodailychat
есть какието метри которые можно выцепить?
источник

КБ

Константин Белинский... in ctodailychat
метрики
источник

O

Onlinehead in ctodailychat
Могли переступить какие-нибудь пороговые значения, после которых началась херня.
источник

КБ

Константин Белинский... in ctodailychat
ну тоесть тут начать мучать рэдиксовцев скорее всего
источник