Телеграмм чат группы natural_language

Например, когда текст о нейросетях, но в нем присутствуют архаизмы. "Десницей человека сейчас стали нейросети" (т.е. правой рукой).

Есть идея выделять из текста слова, когда автор их использует не в общем стиле текста. Но нужен как минимум корпус для этого

источник

16:13пожаловаться #4

VR

Vladimir R in Natural Language Processing

Если есть словарь таких устаревших терминов, то можно работать по словарю. То есть в твоём случае это несоответствие стилистики и темы?

источник

16:16пожаловаться #5

VR

Vladimir R in Natural Language Processing

И ты хочешь датасет, который разбирает словарь слов по стилистике

источник

16:16пожаловаться #6

OR

Oleg Ruban in Natural Language Processing

Vladimir R

Если есть словарь таких устаревших терминов, то можно работать по словарю. То есть в твоём случае это несоответствие стилистики и темы?

да

источник

16:18пожаловаться #7

VR

Vladimir R in Natural Language Processing

Тут сразу следует, что не только слова могут быть устаревшими или подчёркивать стилистику, но и структура фразы, то есть как у мастера Йоды, который использует те же слова (что и обычно) но в другом порядке... Нужно в любом случае модель на трансформерах для разметки стилистической принадлежности и датасет текстов для репрезентации этой стилистики...

источник

16:21пожаловаться #8

OR

Oleg Ruban in Natural Language Processing

Vladimir R

Тут сразу следует, что не только слова могут быть устаревшими или подчёркивать стилистику, но и структура фразы, то есть как у мастера Йоды, который использует те же слова (что и обычно) но в другом порядке... Нужно в любом случае модель на трансформерах для разметки стилистической принадлежности и датасет текстов для репрезентации этой стилистики...

для начала хотел бы попробовать вариант без применения трансформеров, чтобы сервак не нагружать. Поэтому и ищу варианты с разметкой по архаизмам, канцеляризмам, жаргонизмам и т.п.

источник

16:23пожаловаться #9

VR

Vladimir R in Natural Language Processing

Словарь устаревших слов русского языка онлайн
https://wordsonline.ru/dicts/obsolete.html

wordsonline.ru

Словарь устаревших слов русского языка онлайн

Словарь архаизмов и историзмов русского языка с поиском. Список устаревших слов по алфавиту.

источник

16:24пожаловаться #10

VR

Vladimir R in Natural Language Processing

+ wikidictionary

источник

16:25пожаловаться #11

VR

Vladimir R in Natural Language Processing

На основе этих слов можно найти тексты, которые будут репрезентативными

источник

16:26пожаловаться #12

VR

Vladimir R in Natural Language Processing

Oleg Ruban

для начала хотел бы попробовать вариант без применения трансформеров, чтобы сервак не нагружать. Поэтому и ищу варианты с разметкой по архаизмам, канцеляризмам, жаргонизмам и т.п.

Без трансформеров будет сложно, так как все равно стилистика рождается не от отдельных слов, а их комбинаций, и нужно кодировать семантические связи. Без этого ты будешь работать только с bag of words

источник

16:27пожаловаться #13

OR

Oleg Ruban in Natural Language Processing

Vladimir R

Без трансформеров будет сложно, так как все равно стилистика рождается не от отдельных слов, а их комбинаций, и нужно кодировать семантические связи. Без этого ты будешь работать только с bag of words

жили раньше без нейронок и куча сервисов по анализу текстов было без их использования и требования авторов выполнялось ведь)

Взять те же сервисы по анализу текста: Тургенев, Главред, Текст.Ру - все без нейронок, а стилистику анализируют достаточно хорошо)

источник

16:31пожаловаться #14

FF

Futorio Franklin in Natural Language Processing

Oleg Ruban

Например, когда текст о нейросетях, но в нем присутствуют архаизмы. "Десницей человека сейчас стали нейросети" (т.е. правой рукой).

Есть идея выделять из текста слова, когда автор их использует не в общем стиле текста. Но нужен как минимум корпус для этого

Не пробовали tf idf?

источник

16:36пожаловаться #15

OR

Oleg Ruban in Natural Language Processing

Futorio Franklin

Не пробовали tf idf?

дело не в архитектуре, а отсутствии данных, на чём сделать можно

источник

16:38пожаловаться #16

FF

Futorio Franklin in Natural Language Processing

Oleg Ruban

дело не в архитектуре, а отсутствии данных, на чём сделать можно

если есть тексты на конкретную тематику, то по ним можно составить idf

источник

16:42пожаловаться #17

FF

Futorio Franklin in Natural Language Processing

Вероятно, что устаревшие слова будут иметь значения idf выше остальных

источник

16:44пожаловаться #18

FF

Futorio Franklin in Natural Language Processing

В общем как-то двигаться в этом направлении

источник

16:45пожаловаться #19

OR

Oleg Ruban in Natural Language Processing

Futorio Franklin

Вероятно, что устаревшие слова будут иметь значения idf выше остальных

как один из вариантов, да. Но архаизм - это лишь один из десятков разных вариантов, который может встретиться в одном тексте. И tf-idf в таком случае никакой пользы не даст т.к. даже если обучить на 4+ н-грамм, то это лишь может показать вероятность, что в тексте допущена ошибка.

Саму ошибку можно вытащить по значению idf, но если в тексте будут более часто встречаемые н-граммы с превышающим весом, то ряд ошибок такая модель пропустит.

источник

16:48пожаловаться #20