Size: a a a

Natural Language Processing

2021 February 22

N

Natalia in Natural Language Processing
ну дальше да :)
источник

OR

Oleg Ruban in Natural Language Processing
Всем привет) существуют ли датасеты со стилистическим разбором слов и словосочетаний?
источник

VR

Vladimir R in Natural Language Processing
Что такое стилистический разбор, можно пример?
источник

OR

Oleg Ruban in Natural Language Processing
Vladimir R
Что такое стилистический разбор, можно пример?
Например, когда текст о нейросетях, но в нем присутствуют архаизмы. "Десницей человека сейчас стали нейросети" (т.е. правой рукой).

Есть идея выделять из текста слова, когда автор их использует не в общем стиле текста. Но нужен как минимум корпус для этого
источник

VR

Vladimir R in Natural Language Processing
Если есть словарь таких устаревших терминов, то можно работать по словарю. То есть в твоём случае это несоответствие стилистики и темы?
источник

VR

Vladimir R in Natural Language Processing
И ты хочешь датасет, который разбирает словарь слов по стилистике
источник

OR

Oleg Ruban in Natural Language Processing
Vladimir R
Если есть словарь таких устаревших терминов, то можно работать по словарю. То есть в твоём случае это несоответствие стилистики и темы?
да
источник

VR

Vladimir R in Natural Language Processing
Тут сразу следует, что не только слова могут быть устаревшими или подчёркивать стилистику, но и структура фразы, то есть как у мастера Йоды, который использует те же слова (что и обычно) но в другом порядке... Нужно в любом случае модель на трансформерах для разметки стилистической принадлежности и датасет текстов для репрезентации этой стилистики...
источник

OR

Oleg Ruban in Natural Language Processing
Vladimir R
Тут сразу следует, что не только слова могут быть устаревшими или подчёркивать стилистику, но и структура фразы, то есть как у мастера Йоды, который использует те же слова (что и обычно) но в другом порядке... Нужно в любом случае модель на трансформерах для разметки стилистической принадлежности и датасет текстов для репрезентации этой стилистики...
для начала хотел бы попробовать вариант без применения трансформеров, чтобы сервак не нагружать. Поэтому и ищу варианты с разметкой по архаизмам, канцеляризмам, жаргонизмам и т.п.
источник

VR

Vladimir R in Natural Language Processing
Словарь устаревших слов русского языка онлайн
https://wordsonline.ru/dicts/obsolete.html
источник

VR

Vladimir R in Natural Language Processing
+ wikidictionary
источник

VR

Vladimir R in Natural Language Processing
На основе этих слов можно найти тексты, которые будут репрезентативными
источник

VR

Vladimir R in Natural Language Processing
Oleg Ruban
для начала хотел бы попробовать вариант без применения трансформеров, чтобы сервак не нагружать. Поэтому и ищу варианты с разметкой по архаизмам, канцеляризмам, жаргонизмам и т.п.
Без трансформеров будет сложно, так как все равно стилистика рождается не от отдельных слов, а их комбинаций, и нужно кодировать семантические связи. Без этого ты будешь работать только с bag of words
источник

OR

Oleg Ruban in Natural Language Processing
Vladimir R
Без трансформеров будет сложно, так как все равно стилистика рождается не от отдельных слов, а их комбинаций, и нужно кодировать семантические связи. Без этого ты будешь работать только с bag of words
жили раньше без нейронок и куча сервисов по анализу текстов было без их использования и требования авторов выполнялось ведь)

Взять те же сервисы по анализу текста: Тургенев, Главред, Текст.Ру - все без нейронок, а стилистику анализируют достаточно хорошо)
источник

FF

Futorio Franklin in Natural Language Processing
Oleg Ruban
Например, когда текст о нейросетях, но в нем присутствуют архаизмы. "Десницей человека сейчас стали нейросети" (т.е. правой рукой).

Есть идея выделять из текста слова, когда автор их использует не в общем стиле текста. Но нужен как минимум корпус для этого
Не пробовали tf idf?
источник

OR

Oleg Ruban in Natural Language Processing
Futorio Franklin
Не пробовали tf idf?
дело не в архитектуре, а отсутствии данных, на чём сделать можно
источник

FF

Futorio Franklin in Natural Language Processing
Oleg Ruban
дело не в архитектуре, а отсутствии данных, на чём сделать можно
если есть тексты на конкретную тематику, то по ним можно составить idf
источник

FF

Futorio Franklin in Natural Language Processing
Вероятно, что устаревшие слова будут иметь значения idf выше остальных
источник

FF

Futorio Franklin in Natural Language Processing
В общем как-то двигаться в этом направлении
источник

OR

Oleg Ruban in Natural Language Processing
Futorio Franklin
Вероятно, что устаревшие слова будут иметь значения idf выше остальных
как один из вариантов, да. Но архаизм - это лишь один из десятков разных вариантов, который может встретиться в одном тексте. И tf-idf в таком случае никакой пользы не даст т.к. даже если обучить на 4+ н-грамм, то это лишь может показать вероятность, что в тексте допущена ошибка.

Саму ошибку можно вытащить по значению idf, но если в тексте будут более часто встречаемые н-граммы с превышающим весом, то ряд ошибок такая модель пропустит.
источник