Size: a a a

Natural Language Processing

2021 January 18

SancheZz Мов in Natural Language Processing
Поэтому все влазит
источник

VB

Vladimir Bougay in Natural Language Processing
Bogdan Salyp
https://arxiv.org/pdf/2101.03961.pdf кто-нибудь уже читал? Что скажете?
Отличная работа, но нам обычным людям только облизываться 😊
источник

DD

David Dale in Natural Language Processing
SancheZz Мов
Ну тип аттеншн на эксперта
Ну вот фишка как раз в том, что это не совсем атеншн)

В обычном атеншне берутся все эксперты, и перед сложением умножаются на их доли, взятые из софтмакса, которые в сумме равны 1
В разреженном атеншне берутся несколько экспертов, но их множители опять таки нормализуются так, чтобы в сумме давать 1.
А в switch слое берётся один топовый эксперт, и его множитель ни на что не нормализуется - иначе его множитель всегда был бы равен 1. А в switch слое этот множитель нетривиальный, и за счёт этого весь слой получает обучающий сигнал.
источник

VB

Vladimir Bougay in Natural Language Processing
David Dale
Ну вот фишка как раз в том, что это не совсем атеншн)

В обычном атеншне берутся все эксперты, и перед сложением умножаются на их доли, взятые из софтмакса, которые в сумме равны 1
В разреженном атеншне берутся несколько экспертов, но их множители опять таки нормализуются так, чтобы в сумме давать 1.
А в switch слое берётся один топовый эксперт, и его множитель ни на что не нормализуется - иначе его множитель всегда был бы равен 1. А в switch слое этот множитель нетривиальный, и за счёт этого весь слой получает обучающий сигнал.
Это чисто инженерная оптимизация и собственно вся ценность работы в ней и есть. Что можно такой финт провернуть и получить высокий параллелизм модели с топовым качеством
источник

SancheZz Мов in Natural Language Processing
David Dale
Ну вот фишка как раз в том, что это не совсем атеншн)

В обычном атеншне берутся все эксперты, и перед сложением умножаются на их доли, взятые из софтмакса, которые в сумме равны 1
В разреженном атеншне берутся несколько экспертов, но их множители опять таки нормализуются так, чтобы в сумме давать 1.
А в switch слое берётся один топовый эксперт, и его множитель ни на что не нормализуется - иначе его множитель всегда был бы равен 1. А в switch слое этот множитель нетривиальный, и за счёт этого весь слой получает обучающий сигнал.
Аналог гейтов?
источник

DD

David Dale in Natural Language Processing
SancheZz Мов
Аналог гейтов?
Ага, они в подписи к Figure 2 это гейтом и называют.
источник

SancheZz Мов in Natural Language Processing
Еее
источник

SancheZz Мов in Natural Language Processing
Спасибо
источник

SancheZz Мов in Natural Language Processing
Круто что в дискуссе рождается понимание
источник

SancheZz Мов in Natural Language Processing
Вот это я понимаю эффект от сообщества
источник

SancheZz Мов in Natural Language Processing
источник

SancheZz Мов in Natural Language Processing
Vladimir Bougay
Это чисто инженерная оптимизация и собственно вся ценность работы в ней и есть. Что можно такой финт провернуть и получить высокий параллелизм модели с топовым качеством
Еще вопрос тогда оптимизационный
источник

SancheZz Мов in Natural Language Processing
Можно ж усреднять веса с экспертов
источник

SancheZz Мов in Natural Language Processing
По аналогии с swa
источник

SancheZz Мов in Natural Language Processing
И получать круче метрики
источник

VB

Vladimir Bougay in Natural Language Processing
Думаю дальше эту тему покачают активно. Мы много еще интересного увидим
источник

SancheZz Мов in Natural Language Processing
Как по методу оптимизации 0го порядка - Хука Дживса (треугольников в народе)
источник

SancheZz Мов in Natural Language Processing
Там ж эксперты по гпу раскиданы
источник

SancheZz Мов in Natural Language Processing
Каждый с своими весами
источник

VB

Vladimir Bougay in Natural Language Processing
Там очевидно все не так просто, не зря они новый лосс вводят и пишут что на самой большой модели проблемы со стабильностью, но направление перспективное и работа прорывная в некотором роде
источник