Size: a a a

Natural Language Processing

2021 February 22

FF

Futorio Franklin in Natural Language Processing
Oleg Ruban
как один из вариантов, да. Но архаизм - это лишь один из десятков разных вариантов, который может встретиться в одном тексте. И tf-idf в таком случае никакой пользы не даст т.к. даже если обучить на 4+ н-грамм, то это лишь может показать вероятность, что в тексте допущена ошибка.

Саму ошибку можно вытащить по значению idf, но если в тексте будут более часто встречаемые н-граммы с превышающим весом, то ряд ошибок такая модель пропустит.
Тут просто тогда нужно в 2 шага решать - выделение специфических слов и их классификация по стилистике исходя из контекста
источник

FF

Futorio Franklin in Natural Language Processing
Либо задачу доформулировать
источник

AZ

Alexandra Zh in Natural Language Processing
Всем привет! Я уже заходила с этим вопросом, но не могу найти ответ 🙂

Какие сейчас решения наиболее хорошо себя показывают для тонального анализа на русском языке?
источник

AZ

Alexandra Zh in Natural Language Processing
Я сейчас говорю не о тфидф классификаторах, а скорее о технологии, которая уже реализована, типа руберта например или чего-то подобного
источник

VR

Vladimir R in Natural Language Processing
Oleg Ruban
жили раньше без нейронок и куча сервисов по анализу текстов было без их использования и требования авторов выполнялось ведь)

Взять те же сервисы по анализу текста: Тургенев, Главред, Текст.Ру - все без нейронок, а стилистику анализируют достаточно хорошо)
Так я и сказал, что сложно 😊 то есть вероятность успеха низкая. Нужно создавать правила и шаблоны и делать много ручной работы. Нейронки - это способ уменьшить объем труда при разработке подобных решений, и при этом получить несопоставимо лучше качество и неожиданные варианты, которые изначально не учитываются и не закладываются авторами.
источник

VR

Vladimir R in Natural Language Processing
Oleg Ruban
как один из вариантов, да. Но архаизм - это лишь один из десятков разных вариантов, который может встретиться в одном тексте. И tf-idf в таком случае никакой пользы не даст т.к. даже если обучить на 4+ н-грамм, то это лишь может показать вероятность, что в тексте допущена ошибка.

Саму ошибку можно вытащить по значению idf, но если в тексте будут более часто встречаемые н-граммы с превышающим весом, то ряд ошибок такая модель пропустит.
Нужно начинать со словаря, который составил кто-то ещё для возможно других целей, исходя из словаря находить тексты, в которых будут эти термины использоваться, и на них обучать трансформер. Если будешь искать 4-н граммы, то получишь очень разряженную таблицу.
источник

OR

Oleg Ruban in Natural Language Processing
Vladimir R
Нужно начинать со словаря, который составил кто-то ещё для возможно других целей, исходя из словаря находить тексты, в которых будут эти термины использоваться, и на них обучать трансформер. Если будешь искать 4-н граммы, то получишь очень разряженную таблицу.
4-н граммы я приводил в пример т.к. в зависимости от контекста слово/словосочетание может считаться ошибкой, а может и нет и надо учитывать, о чём говорится до и после.
источник

VB

Valery Belyanin in Natural Language Processing
Как очень просто различить (в маркировке) слова, имеющие немного разные значения: повесить_на_крючок, повесить_на_виселице ?
источник

d

dePuff in Natural Language Processing
Valery Belyanin
Как очень просто различить (в маркировке) слова, имеющие немного разные значения: повесить_на_крючок, повесить_на_виселице ?
Косинусные расстояния между векторами?
источник

VB

Valery Belyanin in Natural Language Processing
не знаю. может быть. Как лучше маркировать это в словаре?
источник

d

dePuff in Natural Language Processing
Valery Belyanin
не знаю. может быть. Как лучше маркировать это в словаре?
Я про банальный word2vec
Городить в словаре ссылки на похожие слова по мне так себе идея
источник

SancheZz Мов in Natural Language Processing
dePuff
Я про банальный word2vec
Городить в словаре ссылки на похожие слова по мне так себе идея
Банально когда Левенштейном)
источник

d

dePuff in Natural Language Processing
SancheZz Мов
Банально когда Левенштейном)
Чисто по символам?
источник

SancheZz Мов in Natural Language Processing
А w2v уже не банально)
источник

SancheZz Мов in Natural Language Processing
dePuff
Чисто по символам?
Да значение он не понимает)
источник

SancheZz Мов in Natural Language Processing
Ты прав можно хотябы w2v, или фасттекст
источник

d

dePuff in Natural Language Processing
SancheZz Мов
А w2v уже не банально)
Ну ему же его не реализовывать. Загрузил готовый, посмотрел оно или нет.
Потом спросил тут, а как сделать, чтобы похожесть была как я её вижу )
источник

VB

Valery Belyanin in Natural Language Processing
w2v не знаю. Посмотрел. Надо приписывать cluster_label или как-то учитывать варианты значения? как можно записать в словаре разные значения слов?
источник

d

dePuff in Natural Language Processing
Valery Belyanin
w2v не знаю. Посмотрел. Надо приписывать cluster_label или как-то учитывать варианты значения? как можно записать в словаре разные значения слов?
Взять готовую модель, 3+ гига оперативки, вызвать
gensim.models.Word2Vec.most_similar


"записала" модель сама. Пока училась. Училась на неразмеченных текстах.

Попалось ей в одном тексте "повесить на крючок" а в другом "повесить на виселице" и она такая... Хм... крючок и виселице похожи, сдвину их чуток поближе в векторном пространстве.
источник

d

dePuff in Natural Language Processing
Если хочется свои словари с разными значениями слов своими руками, возможно, целесообразнее начать с изобретения эликсира бессмертия.
Слов много, похожих слов немало

Или хочется больше информации зачем словари синонимов захотелось
источник