Size: a a a

Natural Language Processing

2021 January 18

SancheZz Мов in Natural Language Processing
Vladimir Bougay
Понял. Экспертов всегда несколько, просто они один токен одному эксперту отправляют
Ага, я так же понял
источник

DD

David Dale in Natural Language Processing
Vladimir Bougay
Понял. Экспертов всегда несколько, просто они один токен одному эксперту отправляют
Да, я так же это понимаю.
Но мне кажется, что в этом случае градиент для слоя, выбирающего экспертов, будет всегда 0. Разве нет?
источник

DD

David Dale in Natural Language Processing
Если в уравнение (2) из статьи подставить k=1, то атупут свитч-слоя будет равен аутпуту единственного выбранного эксперта. Но это значит, что и градиент ненулевой будет только по параметрам выбранного эксперта, а не по параметрам свитч-слоя.
Если я не прав, то почему? А если прав, то как тогда свитч-слой вообще обучается?
источник

VB

Vladimir Bougay in Natural Language Processing
David Dale
Да, я так же это понимаю.
Но мне кажется, что в этом случае градиент для слоя, выбирающего экспертов, будет всегда 0. Разве нет?
Я так глубоко не вникал, но то что они называют раутером выглядит как обычный софтмакс. The switch FFN layer returns the output of the selected FFN
multiplied by the router gate value (dotted-line).
источник

VB

Vladimir Bougay in Natural Language Processing
Вообще вопрос хороший, надо вникнуть 😊
источник

SancheZz Мов in Natural Language Processing
Vladimir Bougay
Я так глубоко не вникал, но то что они называют раутером выглядит как обычный софтмакс. The switch FFN layer returns the output of the selected FFN
multiplied by the router gate value (dotted-line).
Но для к=1
источник

SancheZz Мов in Natural Language Processing
Как использовать сотфмакс?
источник

DD

David Dale in Natural Language Processing
Vladimir Bougay
Я так глубоко не вникал, но то что они называют раутером выглядит как обычный софтмакс. The switch FFN layer returns the output of the selected FFN
multiplied by the router gate value (dotted-line).
Ааа, вот оно что.
Я умножение на router gate value пропустил. С ним действительно градиенты есть, и плюс-минус понятно, какой смысл они несут.
источник

SancheZz Мов in Natural Language Processing
Он ж как раз для выбора к экспертов нужен
источник

VB

Vladimir Bougay in Natural Language Processing
+ там же еще батчи
источник

BS

Bogdan Salyp in Natural Language Processing
https://arxiv.org/pdf/2101.03961.pdf кто-нибудь уже читал? Что скажете?
источник

DD

David Dale in Natural Language Processing
SancheZz Мов
Как использовать сотфмакс?
Софтмакс берётся по вообще всем экспертам, и выхлоп топового эксперта умножается на его долю в этом софтмаксе.
Получается, что чем бесполезнее ответ эксперта, тем на меньшую вероятность его switch-слой будет "хотеть" домножить, и будет уменьшать эту вероятность, пока топовым не окажется другой эксперт.
источник

SancheZz Мов in Natural Language Processing
Bogdan Salyp
https://arxiv.org/pdf/2101.03961.pdf кто-нибудь уже читал? Что скажете?
Обсуждаем ща
источник

BS

Bogdan Salyp in Natural Language Processing
А сорри пропустил)
источник

SancheZz Мов in Natural Language Processing
David Dale
Софтмакс берётся по вообще всем экспертам, и выхлоп топового эксперта умножается на его долю в этом софтмаксе.
Получается, что чем бесполезнее ответ эксперта, тем на меньшую вероятность его switch-слой будет "хотеть" домножить, и будет уменьшать эту вероятность, пока топовым не окажется другой эксперт.
Ну тип аттеншн на эксперта
источник

VB

Vladimir Bougay in Natural Language Processing
SancheZz Мов
Ну тип аттеншн на эксперта
Ага
источник

SancheZz Мов in Natural Language Processing
Тогда я тоже понял
источник

SancheZz Мов in Natural Language Processing
Интуитивно были такие мысли
источник

SancheZz Мов in Natural Language Processing
Спасибо
источник

SancheZz Мов in Natural Language Processing
И профит в том что шерят на М гпу
источник