Ну тип аттеншн на эксперта
Ну вот фишка как раз в том, что это не совсем атеншн)
В обычном атеншне берутся все эксперты, и перед сложением умножаются на их доли, взятые из софтмакса, которые в сумме равны 1
В разреженном атеншне берутся несколько экспертов, но их множители опять таки нормализуются так, чтобы в сумме давать 1.
А в switch слое берётся один топовый эксперт, и его множитель ни на что не нормализуется - иначе его множитель всегда был бы равен 1. А в switch слое этот множитель нетривиальный, и за счёт этого весь слой получает обучающий сигнал.