Телеграмм чат группы natural_language

Всем привет!
А какой сейчас лучший алгоритм для суммаризации текста?
Текст английский.
Точнее так, какой лучший из общедоступных, которые легко было бы на локале поднять в условиях ограниченных знаний и лично для себя использовать?
Идея в том, чтобы сокращать новостные заметки до пяти-семи буллетпоинтов - основных мыслей?

источник

11:40пожаловаться #4

SМ

SancheZz Мов in Natural Language Processing

Alex Mak

Всем привет!
А какой сейчас лучший алгоритм для суммаризации текста?
Текст английский.
Точнее так, какой лучший из общедоступных, которые легко было бы на локале поднять в условиях ограниченных знаний и лично для себя использовать?
Идея в том, чтобы сокращать новостные заметки до пяти-семи буллетпоинтов - основных мыслей?

PEGASUS был из последних статей

источник

11:57пожаловаться #5

SМ

SancheZz Мов in Natural Language Processing

Но я не знаю есть ли готовые имплементации

источник

11:57пожаловаться #6

SМ

SancheZz Мов in Natural Language Processing

https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html?m=1

Google AI Blog

PEGASUS: A State-of-the-Art Model for Abstractive Text Summarization

Posted by Peter J. Liu and Yao Zhao, Software Engineers, Google Research Students are often tasked with reading a document and producing...

источник

11:58пожаловаться #7

SМ

SancheZz Мов in Natural Language Processing

https://github.com/google-research/pegasus

GitHub

google-research/pegasus

Contribute to google-research/pegasus development by creating an account on GitHub.

источник

11:59пожаловаться #8

GF

Grigory Frantsuzov in Natural Language Processing

да и на huggingface было про PEGASUS

источник

11:59пожаловаться #9

SМ

SancheZz Мов in Natural Language Processing

Grigory Frantsuzov

да и на huggingface было про PEGASUS

Круто

источник

11:59пожаловаться #10

SМ

SancheZz Мов in Natural Language Processing

Значит уже есть

источник

11:59пожаловаться #11

AM

Alex Mak in Natural Language Processing

Да, вот это сейчас смотрю как раз: https://huggingface.co/transformers/model_doc/pegasus.html

источник

12:00пожаловаться #12

AM

Alex Mak in Natural Language Processing

Спасибо!

источник

12:00пожаловаться #13

SМ

SancheZz Мов in Natural Language Processing

sticker.webp

(30.05 Кб)

источник

12:00пожаловаться #14

DD

David Dale in Natural Language Processing

Товарищи, а кто может объяснить интуицию, как mixture of experts может работать с k=1 экспертом - откуда вообще сигнал берётся для выбора между экспертами?
Я про статью Switch transformers сейчас.

источник

13:13пожаловаться #15

VB

Vladimir Bougay in Natural Language Processing

David Dale

Товарищи, а кто может объяснить интуицию, как mixture of experts может работать с k=1 экспертом - откуда вообще сигнал берётся для выбора между экспертами?
Я про статью Switch transformers сейчас.

Они же пишут про два, а не про одного. Что даже с парой экспертов наблюдается улучшение метрик

источник

13:15пожаловаться #16

VB

Vladimir Bougay in Natural Language Processing

Я вот буквально на выходных статью читал, не помню ничего про одного эксперта

источник

13:15пожаловаться #17

DD

David Dale in Natural Language Processing

Vladimir Bougay

Я вот буквально на выходных статью читал, не помню ничего про одного эксперта

Я сейчас говорю про раздел 2.1, в котором пишут следующее:

Shazeer et al. (2017) conjectured that routing to k > 1 experts was necessary in order to have non-trivial gradients to the routing functions. The authors intuited that learning to route would not work without the ability to compare at least two experts. Ramachandran & Le (2018) went further to study the top-k decision and found that higher k-values lower in the model were important for models with many routing layers. Contrary to these ideas, we instead use a simplified strategy where we route to only a single expert. We show this simplification preserves model quality, reduces routing computation and performs better. This k = 1 routing strategy is later referred to as a Switch layer.

источник

13:16пожаловаться #18

VB

Vladimir Bougay in Natural Language Processing

Понял. Экспертов всегда несколько, просто они один токен одному эксперту отправляют

источник

13:18пожаловаться #19

VB

Vladimir Bougay in Natural Language Processing

Но разные токены на разных экспертов идут

источник

13:18пожаловаться #20