Size: a a a

2021 May 24

DT

Dmitry Tsybin in ctodailychat
да, каждый PR в мастер собирается в AMI-шку
источник

DT

Dmitry Tsybin in ctodailychat
Чат, ситуация:
* В наличии имеется примерно 1PB данных — в основном картинки и видео (и потихоньку количество данных прирастает)
* Из них ~95% нужны “холодными” где-то далеко, чтобы доставать под запрос
* 5% “свежих” данных нужны на серваках с GPU чтобы обучать на них модельки
* Всё это на on-premise железе

Задача:
* Когда приходят новые более свежие данные — текущие данные с хостов утащить в холодный сторадж (ну или сразу их туда утащить), удалив их с хоста-воркера и оставив на воркерах только “свежие” данные
* По запросу уметь притаскивать данные из “холодного стораджа” на воркеры
* Уметь всё это делать надёжно, т.е. проверять что данные не побились иесли что-то не докачалось - докачать или перекачать
* Было бы совсем круто всё это совместить с обучением моделек, чтобы условно была таска, которая умеет скачать нужные данные, запустить на них обучение и сохранить результат

Вдруг кто-нибудь подскажет как такое в мире опенсора решается? Есть ли готовые решения для этого, ну или хотя бы готовые кирпичики из чего собрать, чтобы всё самостоятельно не писать?
источник

IK

Isayakiy Kotletov in ctodailychat
а свежие данные и старые по ключу матчатся какому-то или просто целиком датасет? или по времени строго?
источник

RK

Roman Kononov in ctodailychat
у нас есть своя S3 подобная хранилка которая умеет в распределенный object storage с разными гарантиями и постепенной миграцией из горячего в холодный сторейдж и поддержкой нескольких ДЦ. Для хранения датасетов для моделек насколько я знаю ее тоже используют. Но в open source насколько я знаю пока нет планов выпускать (и то что пилили свою скорее всего говорит о том что не было по крайней мере тогда подобного)
источник

DT

Dmitry Tsybin in ctodailychat
Вот “у нас” тоже такая штука была самописная, а тут знакомые товарищи хотят сделать что-то такое в стартапе, у которого не доступа до технологий существующих корпораций 🙂
источник

A

Alex in ctodailychat
Octo-что? )) Cвои скрипты... SSH и вперед.

(впрочем, там и скритить-то нечего, один zip-файл залить и распаковать после CI и юниттестов)
источник

DT

Dmitry Tsybin in ctodailychat
Я честно говоря точно не знаю, но могу уточнить. Это как-то значимо влияет на требования?
источник

A

Alex in ctodailychat
ничего не понял про хранилища артефактов... типа у вас не stateless приложение?
источник

A

Alex in ctodailychat
А чего не S3? У нас на S3 такое. Там есть автоматический lifecycle-management который перекладывает из холодного в горячее и обратно (либо в еще более холодное), настраивается тремя кликами мышки.

не петабайты конечно, но десятки терабайт. стоит какихто смешных денег
источник

DT

Dmitry Tsybin in ctodailychat
У нас Java и пока мы не деплоились собранными AMI-образами, мы запускали Maven внутри AMI и этот Maven шёл в Nexus за jar-никами.
Это вроде не связано со stateless/statefull
источник

DT

Dmitry Tsybin in ctodailychat
Воркеры с GPU стоят не в облаке и нужно, чтобы “горячие” данные на воркерах лежали. Если можно как-то это на S3 натянуть, то наверное тоже норм
источник

IK

Isayakiy Kotletov in ctodailychat
Minio + nginx с кэшом для локальных файлов. Если там по времени) хотя у минио тож какие то локал ноды вроде были, если не путаю
источник

O

Onlinehead in ctodailychat
Эм, я наверно не очень популярную вещь скажу, но может ceph?
источник

O

Onlinehead in ctodailychat
Кажется он умеет все что нужно, и объекты, и хранилище нормальное, и lifecycle management.
источник

O

Onlinehead in ctodailychat
И протокол S3, если что можно будет мигрироваться, как разбогатеют)
источник

IK

Isayakiy Kotletov in ctodailychat
Ток там отдельный админ нужен чтобы поджерживать, а лучше парочка, не?
источник

O

Onlinehead in ctodailychat
да не, не сложнее кажется чем петабайт самописным куском чего-то перекладывать.
источник

O

Onlinehead in ctodailychat
Его в конце концов можно просто купить у RedHat вместе с поддержкой и красивой панелькой
источник

IK

Isayakiy Kotletov in ctodailychat
я не предлагал самописным куском перекладывать петабайты)
источник

O

Onlinehead in ctodailychat
Хехе, но с кэшем все равно придется заморочиться. В общем я бы ceph посоветовал. Не так там все страшно.
источник