Size: a a a

Natural Language Processing

2021 February 15

МП

Михаил Притугин... in Natural Language Processing
Но мне кажется выгоднее использовать TM потому что, возможно, в данных которых нет в категориях будут образовывать полезную тему, которую нужно будет добавить в категории
источник

МП

Михаил Притугин... in Natural Language Processing
И если этот плюс считать важным - то в какую сторону копать для Seed для BigARTM
Я могу залезть в матрицу разложения Темы/Документы
И выставить единичные вероятности нужным текстам в нужные темы
Но что делать с матрицей Слова/Темы
источник

A

Alex in Natural Language Processing
Здравствуйте. Подскажите можно ли где то найти корпус русской разговорной речи?
источник

A

Andrei in Natural Language Processing
Alex
Здравствуйте. Подскажите можно ли где то найти корпус русской разговорной речи?
мб в нкря есть подкорпус?
источник

M

Mike in Natural Language Processing
источник

SZ

Sergei Zotov in Natural Language Processing
если аудио, то уместнее, наверное, в https://t.me/speech_recognition_ru пойти
источник
2021 February 16

Eg

Elena gisly in Natural Language Processing
Всем привет! Меня глючит, но как будто бы вечером здесь был вопрос про unsupervised word segmentation? Самой интересно стало, что сейчас считается лучшим в этой области, может, кто-то занимался недавно
источник

МН

Михаил Никифоров... in Natural Language Processing
Всем привет! Можете посоветовать или скинуть датасет с русскими текстами, где проставленны ударения, мб у кого-то есть такой? Находятся в основном просто словари из слов с ударениями, хочется предсказывать ударения опираясь на контекст.
источник

Eg

Elena gisly in Natural Language Processing
Михаил Никифоров
Всем привет! Можете посоветовать или скинуть датасет с русскими текстами, где проставленны ударения, мб у кого-то есть такой? Находятся в основном просто словари из слов с ударениями, хочется предсказывать ударения опираясь на контекст.
в НКРЯ есть акцентологический подкорпус, м. б. его запросите?
источник

МН

Михаил Никифоров... in Natural Language Processing
Elena gisly
в НКРЯ есть акцентологический подкорпус, м. б. его запросите?
Я так понял, что он только для учебных целей, для комерческого нельзя, но поправьте, если это не так
источник

N

Natalia in Natural Language Processing
Михаил Никифоров
Всем привет! Можете посоветовать или скинуть датасет с русскими текстами, где проставленны ударения, мб у кого-то есть такой? Находятся в основном просто словари из слов с ударениями, хочется предсказывать ударения опираясь на контекст.
можно учебники/хрестоматии для иностранцев поискать
источник

N

Natalia in Natural Language Processing
про датасет не скажу
источник

Eg

Elena gisly in Natural Language Processing
Михаил Никифоров
Я так понял, что он только для учебных целей, для комерческого нельзя, но поправьте, если это не так
у них лицензионные соглашения выложены, там как-то мутно, так что наверняка не скажу) думаю, у них самих лучше узнать
источник

МН

Михаил Никифоров... in Natural Language Processing
Elena gisly
у них лицензионные соглашения выложены, там как-то мутно, так что наверняка не скажу) думаю, у них самих лучше узнать
Понял, спасибо) напишем
источник

А

Александр in Natural Language Processing
Всем привет, может кто подскажет где взять актуальную инфу по labels_ для spacy? Насколько я понял, то сейчас этот список скорректирован? 'PERSON', 'ORG', 'LOC', 'NORP', 'MONEY', 'GPE', 'LOC', 'PRODUCT', 'EVENT', 'WORK_OF_ART', 'LANGUAGE'?
Например, PERSON теперь PER..
источник

IN

Ilya Nikitin in Natural Language Processing
Всем привет!

Делаю научный проект для одного африканского малоресурсного языка (басаа, Камерун).

Задача – создать систему, которая переводит старую орфографию, в которой почти не указываются тоны, в новую, в которой тоны указываются (их в языке 5).

A mbéhha me kwade. -> À m̂ɓehha kwādɛ.
Me ñwabal koo i e. -> Mɛ̀ ŋ́wàbal kɔɔ i ɛ̄.

Есть бейзлайн на правилах. Метрики - Word Error Rate и Character Error Rate.

Какие подходы стоит попробовать для этой задачи, на ваш взгляд?
источник

KK

Krep Kospit in Natural Language Processing
Ilya Nikitin
Всем привет!

Делаю научный проект для одного африканского малоресурсного языка (басаа, Камерун).

Задача – создать систему, которая переводит старую орфографию, в которой почти не указываются тоны, в новую, в которой тоны указываются (их в языке 5).

A mbéhha me kwade. -> À m̂ɓehha kwādɛ.
Me ñwabal koo i e. -> Mɛ̀ ŋ́wàbal kɔɔ i ɛ̄.

Есть бейзлайн на правилах. Метрики - Word Error Rate и Character Error Rate.

Какие подходы стоит попробовать для этой задачи, на ваш взгляд?
А тот же машинный перевод с помощью транформера не подойдёт?
источник

VF

Vadim Fomin in Natural Language Processing
Это скорее sequence tagging, нет?
источник

T

Timur in Natural Language Processing
любой seq2seq
и насколько я понял, указание тонов не изменяет количество символов. т.е. для каждого символа в старой орфографии можно сопоставить несколько символов из новой орфографии, верно?
источник

N

Natalia in Natural Language Processing
не, это норм задача для машинного перевода
источник