Телеграмм чат группы natural_language_processing страница 1072

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2500 membersпожаловаться на группу

2021 February 22

FF

Futorio Franklin in Natural Language Processing

как один из вариантов, да. Но архаизм - это лишь один из десятков разных вариантов, который может встретиться в одном тексте. И tf-idf в таком случае никакой пользы не даст т.к. даже если обучить на 4+ н-грамм, то это лишь может показать вероятность, что в тексте допущена ошибка.

Саму ошибку можно вытащить по значению idf, но если в тексте будут более часто встречаемые н-граммы с превышающим весом, то ряд ошибок такая модель пропустит.

Тут просто тогда нужно в 2 шага решать - выделение специфических слов и их классификация по стилистике исходя из контекста

источник

16:52пожаловаться #1

FF

Futorio Franklin in Natural Language Processing

Либо задачу доформулировать

источник

16:52пожаловаться #2

AZ

Alexandra Zh in Natural Language Processing

Всем привет! Я уже заходила с этим вопросом, но не могу найти ответ 🙂

Какие сейчас решения наиболее хорошо себя показывают для тонального анализа на русском языке?

источник

17:05пожаловаться #3

AZ

Alexandra Zh in Natural Language Processing

Я сейчас говорю не о тфидф классификаторах, а скорее о технологии, которая уже реализована, типа руберта например или чего-то подобного

источник

17:06пожаловаться #4

VR

Vladimir R in Natural Language Processing

жили раньше без нейронок и куча сервисов по анализу текстов было без их использования и требования авторов выполнялось ведь)

Взять те же сервисы по анализу текста: Тургенев, Главред, Текст.Ру - все без нейронок, а стилистику анализируют достаточно хорошо)

Так я и сказал, что сложно 😊 то есть вероятность успеха низкая. Нужно создавать правила и шаблоны и делать много ручной работы. Нейронки - это способ уменьшить объем труда при разработке подобных решений, и при этом получить несопоставимо лучше качество и неожиданные варианты, которые изначально не учитываются и не закладываются авторами.

источник

18:15пожаловаться #5

VR

Vladimir R in Natural Language Processing

как один из вариантов, да. Но архаизм - это лишь один из десятков разных вариантов, который может встретиться в одном тексте. И tf-idf в таком случае никакой пользы не даст т.к. даже если обучить на 4+ н-грамм, то это лишь может показать вероятность, что в тексте допущена ошибка.

Саму ошибку можно вытащить по значению idf, но если в тексте будут более часто встречаемые н-граммы с превышающим весом, то ряд ошибок такая модель пропустит.

Нужно начинать со словаря, который составил кто-то ещё для возможно других целей, исходя из словаря находить тексты, в которых будут эти термины использоваться, и на них обучать трансформер. Если будешь искать 4-н граммы, то получишь очень разряженную таблицу.

источник

18:19пожаловаться #6

OR

Oleg Ruban in Natural Language Processing

Нужно начинать со словаря, который составил кто-то ещё для возможно других целей, исходя из словаря находить тексты, в которых будут эти термины использоваться, и на них обучать трансформер. Если будешь искать 4-н граммы, то получишь очень разряженную таблицу.

4-н граммы я приводил в пример т.к. в зависимости от контекста слово/словосочетание может считаться ошибкой, а может и нет и надо учитывать, о чём говорится до и после.

источник

18:22пожаловаться #7

VB

Valery Belyanin in Natural Language Processing

Как очень просто различить (в маркировке) слова, имеющие немного разные значения: повесить_на_крючок, повесить_на_виселице ?

источник

21:20пожаловаться #8

d

dePuff in Natural Language Processing

Valery Belyanin

Как очень просто различить (в маркировке) слова, имеющие немного разные значения: повесить_на_крючок, повесить_на_виселице ?

Косинусные расстояния между векторами?

источник

22:01пожаловаться #9

VB

Valery Belyanin in Natural Language Processing

не знаю. может быть. Как лучше маркировать это в словаре?

источник

22:02пожаловаться #10

d

dePuff in Natural Language Processing

Valery Belyanin

не знаю. может быть. Как лучше маркировать это в словаре?

Я про банальный word2vec
Городить в словаре ссылки на похожие слова по мне так себе идея

источник

22:05пожаловаться #11

SМ

SancheZz Мов in Natural Language Processing

Я про банальный word2vec
Городить в словаре ссылки на похожие слова по мне так себе идея

Банально когда Левенштейном)

источник

22:19пожаловаться #12

d

dePuff in Natural Language Processing

SancheZz Мов

Банально когда Левенштейном)

Чисто по символам?

источник

22:19пожаловаться #13

SМ

SancheZz Мов in Natural Language Processing

А w2v уже не банально)

источник

22:19пожаловаться #14

SМ

SancheZz Мов in Natural Language Processing

Чисто по символам?

Да значение он не понимает)

источник

22:19пожаловаться #15

SМ

SancheZz Мов in Natural Language Processing

Ты прав можно хотябы w2v, или фасттекст

источник

22:20пожаловаться #16

d

dePuff in Natural Language Processing

SancheZz Мов

А w2v уже не банально)

Ну ему же его не реализовывать. Загрузил готовый, посмотрел оно или нет.
Потом спросил тут, а как сделать, чтобы похожесть была как я её вижу )

источник

22:20пожаловаться #17

VB

Valery Belyanin in Natural Language Processing

w2v не знаю. Посмотрел. Надо приписывать cluster_label или как-то учитывать варианты значения? как можно записать в словаре разные значения слов?

источник

22:56пожаловаться #18

d

dePuff in Natural Language Processing

Valery Belyanin

w2v не знаю. Посмотрел. Надо приписывать cluster_label или как-то учитывать варианты значения? как можно записать в словаре разные значения слов?

Взять готовую модель, 3+ гига оперативки, вызвать

gensim.models.Word2Vec.most_similar

"записала" модель сама. Пока училась. Училась на неразмеченных текстах.

Попалось ей в одном тексте "повесить на крючок" а в другом "повесить на виселице" и она такая... Хм... крючок и виселице похожи, сдвину их чуток поближе в векторном пространстве.

источник

22:59пожаловаться #19

d

dePuff in Natural Language Processing

Если хочется свои словари с разными значениями слов своими руками, возможно, целесообразнее начать с изобретения эликсира бессмертия.
Слов много, похожих слов немало

Или хочется больше информации зачем словари синонимов захотелось

источник

23:05пожаловаться #20