Всем привет, у меня есть вопрос относительно sagemaker’a с лямбдами. Передо мной стоит задача обращения к модели, которая работает только на GPU (трансформер, работа с текстом), но постоянно держать поднятым инстанс очень не хочется. Есть ли у AWS какая-то опция для того, чтобы обрабатывать запросы только при обращении, в смысле, вести расчёты и тратить деньги?
Для GPU нет.
Можно попробовать сильно снизить стоимость 24*7 за счёт использования spot и elastic inference