Телеграмм чат группы natural_language

Понял. Экспертов всегда несколько, просто они один токен одному эксперту отправляют

Ага, я так же понял

13:19пожаловаться #1

DD

Понял. Экспертов всегда несколько, просто они один токен одному эксперту отправляют

Да, я так же это понимаю.
Но мне кажется, что в этом случае градиент для слоя, выбирающего экспертов, будет всегда 0. Разве нет?

13:20пожаловаться #2

DD

Если в уравнение (2) из статьи подставить k=1, то атупут свитч-слоя будет равен аутпуту единственного выбранного эксперта. Но это значит, что и градиент ненулевой будет только по параметрам выбранного эксперта, а не по параметрам свитч-слоя.
Если я не прав, то почему? А если прав, то как тогда свитч-слой вообще обучается?

13:25пожаловаться #3

VB

David Dale

Да, я так же это понимаю.
Но мне кажется, что в этом случае градиент для слоя, выбирающего экспертов, будет всегда 0. Разве нет?

Я так глубоко не вникал, но то что они называют раутером выглядит как обычный софтмакс. The switch FFN layer returns the output of the selected FFN
multiplied by the router gate value (dotted-line).

13:25пожаловаться #4

VB

Вообще вопрос хороший, надо вникнуть 😊

13:27пожаловаться #5

SМ

Я так глубоко не вникал, но то что они называют раутером выглядит как обычный софтмакс. The switch FFN layer returns the output of the selected FFN
multiplied by the router gate value (dotted-line).

Но для к=1

13:27пожаловаться #6

SМ

Как использовать сотфмакс?

13:28пожаловаться #7

DD

Я так глубоко не вникал, но то что они называют раутером выглядит как обычный софтмакс. The switch FFN layer returns the output of the selected FFN
multiplied by the router gate value (dotted-line).

Ааа, вот оно что.
Я умножение на router gate value пропустил. С ним действительно градиенты есть, и плюс-минус понятно, какой смысл они несут.

13:28пожаловаться #8

SМ

Он ж как раз для выбора к экспертов нужен

13:28пожаловаться #9

VB

+ там же еще батчи

Bogdan Salyp in Natural Language Processing

13:28пожаловаться #10

BS

https://arxiv.org/pdf/2101.03961.pdf кто-нибудь уже читал? Что скажете?

13:30пожаловаться #11

DD

SancheZz Мов

Как использовать сотфмакс?

Софтмакс берётся по вообще всем экспертам, и выхлоп топового эксперта умножается на его долю в этом софтмаксе.
Получается, что чем бесполезнее ответ эксперта, тем на меньшую вероятность его switch-слой будет "хотеть" домножить, и будет уменьшать эту вероятность, пока топовым не окажется другой эксперт.

13:30пожаловаться #12

SМ

Bogdan Salyp

https://arxiv.org/pdf/2101.03961.pdf кто-нибудь уже читал? Что скажете?

Обсуждаем ща

Bogdan Salyp in Natural Language Processing

13:30пожаловаться #13

BS

А сорри пропустил)

13:30пожаловаться #14

SМ

David Dale

Софтмакс берётся по вообще всем экспертам, и выхлоп топового эксперта умножается на его долю в этом софтмаксе.
Получается, что чем бесполезнее ответ эксперта, тем на меньшую вероятность его switch-слой будет "хотеть" домножить, и будет уменьшать эту вероятность, пока топовым не окажется другой эксперт.

Ну тип аттеншн на эксперта

13:30пожаловаться #15

VB

SancheZz Мов

Ну тип аттеншн на эксперта

Ага

13:31пожаловаться #16

SМ