Size: a a a

Natural Language Processing

2021 January 18

GF

Grigory Frantsuzov in Natural Language Processing
насчет топонимов
источник

Eg

Elena gisly in Natural Language Processing
еще можно базы geonames, OSM посмотреть (в плане топонимов)
источник

С2

Сергей 2017 in Natural Language Processing
Спасибо
источник

AM

Alex Mak in Natural Language Processing
Всем привет!
А какой сейчас лучший алгоритм для суммаризации текста?
Текст английский.
Точнее так, какой лучший из общедоступных, которые легко было бы на локале поднять в условиях ограниченных знаний и лично для себя использовать?
Идея в том, чтобы сокращать новостные заметки до пяти-семи буллетпоинтов - основных мыслей?
источник

SancheZz Мов in Natural Language Processing
Alex Mak
Всем привет!
А какой сейчас лучший алгоритм для суммаризации текста?
Текст английский.
Точнее так, какой лучший из общедоступных, которые легко было бы на локале поднять в условиях ограниченных знаний и лично для себя использовать?
Идея в том, чтобы сокращать новостные заметки до пяти-семи буллетпоинтов - основных мыслей?
PEGASUS был из последних статей
источник

SancheZz Мов in Natural Language Processing
Но я не знаю есть ли готовые имплементации
источник

SancheZz Мов in Natural Language Processing
источник

SancheZz Мов in Natural Language Processing
источник

GF

Grigory Frantsuzov in Natural Language Processing
да и на huggingface было про PEGASUS
источник

SancheZz Мов in Natural Language Processing
Grigory Frantsuzov
да и на huggingface было про PEGASUS
Круто
источник

SancheZz Мов in Natural Language Processing
Значит уже есть
источник

AM

Alex Mak in Natural Language Processing
Да, вот это сейчас смотрю как раз: https://huggingface.co/transformers/model_doc/pegasus.html
источник

AM

Alex Mak in Natural Language Processing
Спасибо!
источник

SancheZz Мов in Natural Language Processing
источник

DD

David Dale in Natural Language Processing
Товарищи, а кто может объяснить интуицию, как mixture of experts может работать с k=1 экспертом - откуда вообще сигнал берётся для выбора между экспертами?
Я про статью Switch transformers сейчас.
источник

VB

Vladimir Bougay in Natural Language Processing
David Dale
Товарищи, а кто может объяснить интуицию, как mixture of experts может работать с k=1 экспертом - откуда вообще сигнал берётся для выбора между экспертами?
Я про статью Switch transformers сейчас.
Они же пишут про два, а не про одного. Что даже с парой экспертов наблюдается улучшение метрик
источник

VB

Vladimir Bougay in Natural Language Processing
Я вот буквально на выходных статью читал, не помню ничего про одного эксперта
источник

DD

David Dale in Natural Language Processing
Vladimir Bougay
Я вот буквально на выходных статью читал, не помню ничего про одного эксперта
Я сейчас говорю про раздел 2.1, в котором пишут следующее:

Shazeer et al. (2017) conjectured that routing to k > 1 experts was necessary in order to have non-trivial gradients to the routing functions. The authors intuited that learning to route would not work without the ability to compare at least two experts. Ramachandran & Le (2018) went further to study the top-k decision and found that higher k-values lower in the model were important for models with many routing layers. Contrary to these ideas, we instead use a simplified strategy where we route to only a single expert. We show this simplification preserves model quality, reduces routing computation and performs better. This k = 1 routing strategy is later referred to as a Switch layer.
источник

VB

Vladimir Bougay in Natural Language Processing
Понял. Экспертов всегда несколько, просто они один токен одному эксперту отправляют
источник

VB

Vladimir Bougay in Natural Language Processing
Но разные токены на разных экспертов идут
источник