Телеграмм чат группы natural_language

Поэтому все влазит

13:32пожаловаться #1

VB

Bogdan Salyp

https://arxiv.org/pdf/2101.03961.pdf кто-нибудь уже читал? Что скажете?

Отличная работа, но нам обычным людям только облизываться 😊

David Dale in Natural Language Processing

13:33пожаловаться #2

DD

SancheZz Мов

Ну тип аттеншн на эксперта

Ну вот фишка как раз в том, что это не совсем атеншн)

В обычном атеншне берутся все эксперты, и перед сложением умножаются на их доли, взятые из софтмакса, которые в сумме равны 1
В разреженном атеншне берутся несколько экспертов, но их множители опять таки нормализуются так, чтобы в сумме давать 1.
А в switch слое берётся один топовый эксперт, и его множитель ни на что не нормализуется - иначе его множитель всегда был бы равен 1. А в switch слое этот множитель нетривиальный, и за счёт этого весь слой получает обучающий сигнал.

13:34пожаловаться #3

VB

David Dale

Ну вот фишка как раз в том, что это не совсем атеншн)

В обычном атеншне берутся все эксперты, и перед сложением умножаются на их доли, взятые из софтмакса, которые в сумме равны 1
В разреженном атеншне берутся несколько экспертов, но их множители опять таки нормализуются так, чтобы в сумме давать 1.
А в switch слое берётся один топовый эксперт, и его множитель ни на что не нормализуется - иначе его множитель всегда был бы равен 1. А в switch слое этот множитель нетривиальный, и за счёт этого весь слой получает обучающий сигнал.

Это чисто инженерная оптимизация и собственно вся ценность работы в ней и есть. Что можно такой финт провернуть и получить высокий параллелизм модели с топовым качеством

13:35пожаловаться #4

SМ

David Dale

Ну вот фишка как раз в том, что это не совсем атеншн)

В обычном атеншне берутся все эксперты, и перед сложением умножаются на их доли, взятые из софтмакса, которые в сумме равны 1
В разреженном атеншне берутся несколько экспертов, но их множители опять таки нормализуются так, чтобы в сумме давать 1.
А в switch слое берётся один топовый эксперт, и его множитель ни на что не нормализуется - иначе его множитель всегда был бы равен 1. А в switch слое этот множитель нетривиальный, и за счёт этого весь слой получает обучающий сигнал.

Аналог гейтов?

David Dale in Natural Language Processing

13:35пожаловаться #5

DD

SancheZz Мов

Аналог гейтов?

Ага, они в подписи к Figure 2 это гейтом и называют.

13:36пожаловаться #6

SМ

Еее

13:36пожаловаться #7

SМ

Спасибо

13:36пожаловаться #8

SМ

Круто что в дискуссе рождается понимание

13:36пожаловаться #9

SМ

Вот это я понимаю эффект от сообщества

13:36пожаловаться #10

SМ

sticker.webp

(30.05 Кб)

13:37пожаловаться #11

SМ

Vladimir Bougay

Это чисто инженерная оптимизация и собственно вся ценность работы в ней и есть. Что можно такой финт провернуть и получить высокий параллелизм модели с топовым качеством

Еще вопрос тогда оптимизационный

13:37пожаловаться #12

SМ

Можно ж усреднять веса с экспертов

13:37пожаловаться #13

SМ

По аналогии с swa

13:37пожаловаться #14

SМ

И получать круче метрики

13:37пожаловаться #15

VB

Думаю дальше эту тему покачают активно. Мы много еще интересного увидим

13:37пожаловаться #16

SМ

Как по методу оптимизации 0го порядка - Хука Дживса (треугольников в народе)

13:38пожаловаться #17

SМ

Там ж эксперты по гпу раскиданы

13:38пожаловаться #18

SМ

Каждый с своими весами

13:38пожаловаться #19

VB

Там очевидно все не так просто, не зря они новый лосс вводят и пишут что на самой большой модели проблемы со стабильностью, но направление перспективное и работа прорывная в некотором роде