Если в уравнение (2) из статьи подставить k=1, то атупут свитч-слоя будет равен аутпуту единственного выбранного эксперта. Но это значит, что и градиент ненулевой будет только по параметрам выбранного эксперта, а не по параметрам свитч-слоя.
Если я не прав, то почему? А если прав, то как тогда свитч-слой вообще обучается?