Телеграмм чат группы natural_language

2021 February 16

VF

Vadim Fomin in Natural Language Processing

А в орфографиях есть разница, кроме тонов?

источник

13:51пожаловаться #1

DD

David Dale in Natural Language Processing

Ilya Nikitin

Всем привет!

Делаю научный проект для одного африканского малоресурсного языка (басаа, Камерун).

Задача – создать систему, которая переводит старую орфографию, в которой почти не указываются тоны, в новую, в которой тоны указываются (их в языке 5).

A mbéhha me kwade. -> À m̂ɓehha mɛ

 kwādɛ.

Me ñwabal koo i e. -> Mɛ̀ ŋ́wàbal kɔɔ i ɛ̄.

Есть бейзлайн на правилах. Метрики - Word Error Rate и Character Error Rate.

Какие подходы стоит попробовать для этой задачи, на ваш взгляд?

Мне кажется, эта задача похожа на задачу восстановления пунктуации.
Если я правильно понял, новый текст - это старый текст, где к каким-то символам применили операцию замены на более правильный символ. И количество этих замен довольно ограниченное.

Кажется, для такой задачи может подойти BERT-подобная модель for token classification, типа LaserTagger. Только, наверное, размеры токенов должны быть поменьше, чем обычно в BERT'е - так, чтобы на каждый токен приходилось не больше одной замены.
Обучал бы я её так:
1) Предобучаем обычный небольшой BERT (или RoBERTA) с маленьким словарём на задачу MLM на всех доступных текстах - и в старой орфографии, и в новой.
2) Файн-тюним эту же модель на параллельном корпусе, где на вход подаётся текст в старой орфографии, а на выходе нужно предсказать, к каким символам применить какие замены.
Построить такой параллельный корпус можно, взяв кучу текстов в новой орфографии, и какими-нибудь правилами "попортив" их, выкинув какие-то тоны. Ну или честно собрать его, если есть такая возможность.

Кажется, такая модель будет сильно более робастной, чем seq2seq, который иногда забывает часть исходного текста или, наоборот, начинает фантазировать.

источник

13:52пожаловаться #2

DD

David Dale in Natural Language Processing

Natalia

не, это норм задача для машинного перевода

Для машинного перевода задача действительно норм, но есть подозрение, что sequence tagging будет проще завести.

источник

13:56пожаловаться #3

N

Natalia in Natural Language Processing

ну возможно, я просто слишком много видела статей по нормализации орфографии и всякому разному (включая OCR-postcorrection), где подходили к этому как к задаче MT :)

источник

13:57пожаловаться #4

T

Timur in Natural Language Processing

David Dale

Мне кажется, эта задача похожа на задачу восстановления пунктуации.
Если я правильно понял, новый текст - это старый текст, где к каким-то символам применили операцию замены на более правильный символ. И количество этих замен довольно ограниченное.

Кажется, для такой задачи может подойти BERT-подобная модель for token classification, типа LaserTagger. Только, наверное, размеры токенов должны быть поменьше, чем обычно в BERT'е - так, чтобы на каждый токен приходилось не больше одной замены.
Обучал бы я её так:
1) Предобучаем обычный небольшой BERT (или RoBERTA) с маленьким словарём на задачу MLM на всех доступных текстах - и в старой орфографии, и в новой.
2) Файн-тюним эту же модель на параллельном корпусе, где на вход подаётся текст в старой орфографии, а на выходе нужно предсказать, к каким символам применить какие замены.
Построить такой параллельный корпус можно, взяв кучу текстов в новой орфографии, и какими-нибудь правилами "попортив" их, выкинув какие-то тоны. Ну или честно собрать его, если есть такая возможность.

Кажется, такая модель будет сильно более робастной, чем seq2seq, который иногда забывает часть исходного текста или, наоборот, начинает фантазировать.

пока не очень понимаю, почему seq2seq в качестве бейзлайна будет не очень робастной, учитывая то, что каждому токену (в нашем случае символу) соответствует другой

источник

13:57пожаловаться #5

N

Natalia in Natural Language Processing

Timur

пока не очень понимаю, почему seq2seq в качестве бейзлайна будет не очень робастной, учитывая то, что каждому токену (в нашем случае символу) соответствует другой

тут очень важен контекст

источник

13:58пожаловаться #6

T

Timur in Natural Language Processing

хотя да, лучше seq2seq на символах, наверное, не строить

источник

13:58пожаловаться #7

N

Natalia in Natural Language Processing

(хотя, конечно, и это зависит от тональной системы языка во многом)

источник

13:58пожаловаться #8

N

Natalia in Natural Language Processing

Vadim Fomin

А в орфографиях есть разница, кроме тонов?

ну вот e > ɛ как минимум

источник

13:59пожаловаться #9

VF

Vadim Fomin in Natural Language Processing

Natalia

ну вот e > ɛ как минимум

Тогда вопрос в том, можно ли эту разницу свести к правилам (и считать, что это постпроцессинг после sequence labeling'а), или она настолько значительна, что лучше предоставить сектусеку её выучивать

источник

14:00пожаловаться #10

IN

Ilya Nikitin in Natural Language Processing

Vadim Fomin

А в орфографиях есть разница, кроме тонов?

Да, есть замены для части согласных тоже. Но их меньше, чем для гласных

источник

14:00пожаловаться #11

VF

Vadim Fomin in Natural Language Processing

Ilya Nikitin