Ещё раз, не путайте "побилось" и " корректные, но не актуальные/консистентные данные". Для каждой из этих проблем есть свой способ пэрещения. Если мы про "побилось", то это Решается чек суммами - Т.е. При записи генерируется чексумма путем расчёта хеша и записывается рядом/вместе с данными. При чтении этих данные считается хеш блока и сверяется с тем, которой у нас был посчитан. Если совпадает - все ок, отдаем блок. Если нет, то кидаем ошибку и помечаем блок потерянным/сбойным, читаем со второй копии, ребилдим. Таким образом, мы обеспечили защиту от silent corrupt. Т.к. Не все данные мы часто читаем, то для минимизации риска, что побьется обе копии, то делается дополнительный scrubbing, то пересчет/проверка контрольных сумм в фоне всех данных на кластере. Так работает большинство нормальных систем хранения (включая распределенные).