1) Это не имеет значения если ваш сервис живёт на более чем двух серверах. Мне, например, всё равно, поднимется у меня сервис за 30 миллисекунд или за полчаса. Он как минимум дублирован, а как максимум дублирован 32 раза. Нода может лежать хоть сутки.
2) При падении монолит ломает что-то только если он мультипоточный. Не пишите таких сервисов, если нет навыков делать так, чтобы он не корраптил при падении. В помощь — читать про 2 phase commit, журналы и транзакции
3) отказ одного сервиса НЕ должен приводить к деградации для всех пользователей. Дублируйте сервисы, делайте геораспределение, привязывайте пользователей по субкластерам.
4) Мощности вычислительной системы должно заведомо хватать на штатный режим работы плюс перекрытие кратковременных пиков. Ситуация когда сервис регулярно упирается в лимиты в штатном режиме — недопустима.