расскажите про ваш процесс постмортема для инцидентов на проде? как ведете учет инцидентов, как извлекаете уроки, корректируете процесс разработки, сообщаете ли что-то по результатам решений клиентам?
У нас есть специальный чатик для инцидентов. Каждый инцидент начинается с треда там и в этом треде фиксится. Иногда оказывается, что это ложная тревога. По итогам CTO, Head of DevOps или Head of Engineering решают, что нужен постмортем и назначают ответственных за его написание. Для постмортемов есть шаблон в Конфлюэнсе. Состоит из перечисления участников, таймлайна, секции оценки ущерба и списка тикетов "что будет сделано, чтобы такое не повторилось".