Size: a a a

2020 August 28

AT

Al T in AWS_RU
Sasha Zhu
Всем привет, у меня есть вопрос относительно sagemaker’a с лямбдами. Передо мной стоит задача обращения к модели, которая работает только на GPU (трансформер, работа с текстом), но постоянно держать поднятым инстанс очень не хочется. Есть ли у AWS какая-то опция для того, чтобы обрабатывать запросы только при обращении, в смысле, вести расчёты и тратить деньги?
ну вот только это пока есть - https://aws.amazon.com/ru/machine-learning/elastic-inference/ не совсем то что вам надо, понимаю, но чем богаты...
источник

SZ

Sasha Zhu in AWS_RU
Al T
ну вот только это пока есть - https://aws.amazon.com/ru/machine-learning/elastic-inference/ не совсем то что вам надо, понимаю, но чем богаты...
Спасибо, посмотрю!
источник

SZ

Sasha Zhu in AWS_RU
А вообще, может быть может кто-то подсказать, какие вообще есть хорошие практики при обслуживании тяжеловесных моделей? Только GPU 24/7?
источник

SZ

Sasha Zhu in AWS_RU
Можно, конечно, кластер физический собрать, но вопрос увеличивающейся нагрузки
источник

AT

Al T in AWS_RU
лучше наверно gpu и использовать compute savings plans
источник

AT

Al T in AWS_RU
чтобы сэкономить, но зависит конечно от ваших задач.. elastic inference тоже популярная вещь
источник

SZ

Sasha Zhu in AWS_RU
Al T
чтобы сэкономить, но зависит конечно от ваших задач.. elastic inference тоже популярная вещь
Тогда в его сторону буду глядеть
источник

AT

Al T in AWS_RU
Sasha Zhu
Можно, конечно, кластер физический собрать, но вопрос увеличивающейся нагрузки
ну а в чем проблема, autoscaling groups - держите в минимуме 1 инстанс
источник

SZ

Sasha Zhu in AWS_RU
То есть, я правильно понимаю, что придётся в любом случае держать 1 поднятый инстанс, да?
источник

AP

Alexander Patrushev in AWS_RU
Sasha Zhu
Всем привет, у меня есть вопрос относительно sagemaker’a с лямбдами. Передо мной стоит задача обращения к модели, которая работает только на GPU (трансформер, работа с текстом), но постоянно держать поднятым инстанс очень не хочется. Есть ли у AWS какая-то опция для того, чтобы обрабатывать запросы только при обращении, в смысле, вести расчёты и тратить деньги?
Для GPU нет.
Можно попробовать сильно снизить стоимость 24*7 за счёт использования spot и elastic inference
источник

SZ

Sasha Zhu in AWS_RU
Alexander Patrushev
Для GPU нет.
Можно попробовать сильно снизить стоимость 24*7 за счёт использования spot и elastic inference
И вам спасибо! Про spot тоже впервые слышу
источник

AT

Al T in AWS_RU
если нужно GPU то мне кажется да, или один инстанс ec2 или 1 инстанс контейнера
источник

SZ

Sasha Zhu in AWS_RU
Al T
если нужно GPU то мне кажется да, или один инстанс ec2 или 1 инстанс контейнера
склоняюсь к ес2
источник

SZ

Sasha Zhu in AWS_RU
Ещё раз спасибо. Буду разбираться с документацией)
источник

AS

Alexey Stekov in AWS_RU
Sasha Zhu
склоняюсь к ес2
spot сильно дешевле ec2 )
источник

AP

Alexander Patrushev in AWS_RU
Sasha Zhu
Ещё раз спасибо. Буду разбираться с документацией)
Ещё как вариант посмотреть в сторону sagemaker, он сам возьмёт на себя автоматизацию deploy + monitoring. За счёт elastic inference можно цену снизить (в сравнении с чистым gpu)
источник

AS

Alexey Stekov in AWS_RU
источник

SZ

Sasha Zhu in AWS_RU
Alexander Patrushev
Ещё как вариант посмотреть в сторону sagemaker, он сам возьмёт на себя автоматизацию deploy + monitoring. За счёт elastic inference можно цену снизить (в сравнении с чистым gpu)
Вот изначально в сторону SageMaker'a и смотрела, на самом деле, но в первую очередь стоял вопрос снижения цены. Встречались примеры архитектур, в которых были использованы лямбды как триггеры для обработки запросов
источник

ST

Sergey Trapeznikov in AWS_RU
откуда читать
источник

AS

Alexey Stekov in AWS_RU
сверху вниз)
источник