Телеграмм чат группы natural_language_processing страница 1359

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 July 29

Е

Егорка in Natural Language Processing

Если скорость не в приоритете, то можно из предобученных моделей построить композицию алгоритмов с корректирующей операцией в виде линейной комбинации или просто объединить результаты трёх моделей логическими операторами.

источник

21:21пожаловаться #1

d

dePuff in Natural Language Processing

Гугл забанит переводов через 60т

В Яндексе, только ключ меняй раз в недельку )

источник

21:47пожаловаться #2

2021 July 30

AK

Anton Kolonin in Natural Language Processing

Если вдруг кому интересно, сделали форк группы AGIRussia для разговоров за general conversational intelligence, AGI для NLP и NLP в AGI https://t.me/agibots

Разговорный интеллект, общий разговорный интеллект и NLP в AGI и для AGI - по-русски

источник

10:49пожаловаться #3

GP

Grigoriy Polyanitsin in Natural Language Processing

Подскажите, какие есть способы выявления соответствия 2х рус. предложений друг к другу по смыслу? Слова или небольшие фразы можно через эмбеддинги сравнивать, но длинные предложения даже схожие по смыслу раскидывает довольно сильно. Имеет ли смысл сравнивать эмбеддинги входящих в предложения слов или их N-gramm или может быть есть какая то библиотека по генерации синонимичных слов \ фраз? Или может есть уже какое то нормальное решение?

источник

11:33пожаловаться #4

IG

Ilya Gusev in Natural Language Processing

можно любые sentence encoders использовать, например отсюда: https://www.sbert.net/
либо просто известные USE/LaBSE
а по поводу опредления/написания парафраз есть куча статей даже для русского, гуглить по paraphrase detection/generation соответственно

источник

11:41пожаловаться #5

V

Vic in Natural Language Processing

можем такое сделать на трансформерах, задача тут тонкая и я бы не сказал, что bow подойдет

источник

17:53пожаловаться #6

DP

Defragmented Panda in Natural Language Processing

что предложил бы вместо bow?

источник

17:54пожаловаться #7

V

Vic in Natural Language Processing

плюсую sbert там обратите внимание что его можно обучить под эту задачу. А из коробки там уже есть задача логического следствия у двух предложений - понятно, что похоже но надо обучать скорее всего под конкретный сеттинг-тему-стилистику

источник

17:55пожаловаться #8

V

Vic in Natural Language Processing

на первый взгляд надо ансамбль моделей классификаторов на bert чтобы ловить разные выскокоуровневые фичи стиля автора. Для этого надо иметь тексты каждого автора и задать так обучение и негативные сэмплы, чтобы сетка обобщила стиль. А bow спутается на длинных оборотах и на стилистике самого сми, а не автора, которые могут быть неявными от редакции

источник

17:58пожаловаться #9

DP

Defragmented Panda in Natural Language Processing

я нашел что берт использует 30к токенов, типа one hot encoding

а как он обрабатывает вход разной длины? не используя lstm

что используется для возможности обрабатывать за раз вход неизвестной заранее длинны? (обычно rnn/lstm)

источник

18:40пожаловаться #10

E

Elena in Natural Language Processing

количество токенов всего в модели и количество токенов на вход это разные вещи

источник

18:41пожаловаться #11

DP

Defragmented Panda in Natural Language Processing

я хочу знать вход

источник

18:42пожаловаться #12

E

Elena in Natural Language Processing

в BERT можно подать 512 токенов, максимум

источник

18:42пожаловаться #13

E

Elena in Natural Language Processing

если больше, то обрезается до этого значения

источник

18:42пожаловаться #14

E

Elena in Natural Language Processing

или вы сами выставляете, сколько токенов будет на входе

источник

18:42пожаловаться #15

DP

Defragmented Panda in Natural Language Processing

а если меньше?

источник

18:42пожаловаться #16

E

Elena in Natural Language Processing

можно меньше, конечно

источник

18:43пожаловаться #17

E

Elena in Natural Language Processing

если меньше, то остаток до указанной длины заполняется паддингом

источник

18:43пожаловаться #18

E

Elena in Natural Language Processing

токен не равно слово

источник

18:43пожаловаться #19

DP

Defragmented Panda in Natural Language Processing

вот, это хотел знать, спасибо

источник

18:43пожаловаться #20