Size: a a a

Natural Language Processing

2021 July 29

Е

Егорка in Natural Language Processing
Если скорость не в приоритете, то можно из предобученных моделей построить композицию алгоритмов с корректирующей операцией в виде линейной комбинации или просто объединить результаты трёх моделей логическими операторами.
источник

d

dePuff in Natural Language Processing
Гугл забанит переводов через 60т

В Яндексе, только ключ меняй раз в недельку )
источник
2021 July 30

AK

Anton Kolonin in Natural Language Processing
Если вдруг кому интересно, сделали форк группы AGIRussia для разговоров за general conversational intelligence, AGI для NLP и NLP в  AGI https://t.me/agibots
источник

GP

Grigoriy Polyanitsin in Natural Language Processing
Подскажите, какие есть способы выявления соответствия 2х рус. предложений друг к другу по смыслу? Слова или небольшие фразы можно через эмбеддинги сравнивать, но длинные предложения даже схожие по смыслу раскидывает довольно сильно. Имеет ли смысл сравнивать эмбеддинги входящих в предложения слов или их N-gramm или может быть есть какая то библиотека по генерации синонимичных слов \ фраз? Или может есть уже какое то нормальное решение?
источник

IG

Ilya Gusev in Natural Language Processing
можно любые sentence encoders использовать, например отсюда: https://www.sbert.net/
либо просто известные USE/LaBSE
а по поводу опредления/написания парафраз есть куча статей даже для русского, гуглить по paraphrase detection/generation соответственно
источник

V

Vic in Natural Language Processing
можем такое сделать на трансформерах, задача тут тонкая и я  бы не сказал, что bow подойдет
источник

DP

Defragmented Panda in Natural Language Processing
что предложил бы вместо bow?
источник

V

Vic in Natural Language Processing
плюсую sbert там обратите внимание что его можно обучить под эту задачу. А из коробки там уже есть задача логического следствия у двух предложений - понятно, что похоже но надо обучать скорее всего под конкретный сеттинг-тему-стилистику
источник

V

Vic in Natural Language Processing
на первый взгляд надо ансамбль моделей классификаторов на bert чтобы ловить разные выскокоуровневые фичи стиля автора. Для этого надо иметь тексты каждого автора и задать так обучение и негативные сэмплы, чтобы сетка обобщила стиль. А bow спутается на длинных оборотах и на стилистике самого сми, а не автора, которые могут быть неявными от редакции
источник

DP

Defragmented Panda in Natural Language Processing
я нашел что берт использует 30к токенов, типа one hot encoding

а как он обрабатывает вход разной длины? не используя lstm

что используется для возможности обрабатывать за раз вход неизвестной заранее длинны? (обычно rnn/lstm)
источник

E

Elena in Natural Language Processing
количество токенов всего в модели и количество токенов на вход это разные вещи
источник

DP

Defragmented Panda in Natural Language Processing
я хочу знать вход
источник

E

Elena in Natural Language Processing
в BERT можно подать 512 токенов, максимум
источник

E

Elena in Natural Language Processing
если больше, то обрезается до этого значения
источник

E

Elena in Natural Language Processing
или вы сами выставляете, сколько токенов будет на входе
источник

DP

Defragmented Panda in Natural Language Processing
а если меньше?
источник

E

Elena in Natural Language Processing
можно меньше, конечно
источник

E

Elena in Natural Language Processing
если меньше, то остаток до указанной длины заполняется паддингом
источник

E

Elena in Natural Language Processing
токен не равно слово
источник

DP

Defragmented Panda in Natural Language Processing
вот, это хотел знать, спасибо
источник