Всем привет.
Сегодня у нас произошла херня и мне до сих пор интересно, почему так.
Итак, три коммутатора Cisco SG300 (ну ок, не каталист, но работают же) , соединены друг с другом линками (два порта в LAG/LACP, если это важно), настроены Dynamic VLAN`ы на портах клиентов и авторизация клиентов же (коих около 60) через 802.1x на RADIUS`е. Всё было хорошо и работало примерно месяц.
Я решил, что один радиус в настройках - это как-то не отказоустойчиво, добавил второй сервер (конфиги у них одинаковые, для WiFi они же работают без проблем) с меньшим приоритетом и решил проверить работу отказоустойчивости - погасил первый RADIUS, смотрю лог на втором. В логе ничего нет, нет, нет, нет, ХЕРАК - сети тоже нет. Прихожу в серверную - все три свитча по кругу перезагружаются, boot loop. Загрузился, линки поднял, интерфейс управления стал доступен - херак в перезагрузку ушёл.
И так много-много раз в течении примерно часа.
Как решилось - вытащил все провода (кроме управления), один включил, он загрузился и пустил в управление, вроде работает. Начал по одному подключать патчи и в консоль смотреть - вроде всё ок, port up, port authorized. Так все включил и всё поехало.
Вопросы - это бля что было тоооооооо? Почему он не использовал резервный RADIUS?
И главное - как такого избежать в будущем?
На выходных попробую на стенде эксперимент повторить.