Size: a a a

Natural Language Processing

2021 February 16

VF

Vadim Fomin in Natural Language Processing
А в орфографиях есть разница, кроме тонов?
источник

DD

David Dale in Natural Language Processing
Ilya Nikitin
Всем привет!

Делаю научный проект для одного африканского малоресурсного языка (басаа, Камерун).

Задача – создать систему, которая переводит старую орфографию, в которой почти не указываются тоны, в новую, в которой тоны указываются (их в языке 5).

A mbéhha me kwade. -> À m̂ɓehha kwādɛ.
Me ñwabal koo i e. -> Mɛ̀ ŋ́wàbal kɔɔ i ɛ̄.

Есть бейзлайн на правилах. Метрики - Word Error Rate и Character Error Rate.

Какие подходы стоит попробовать для этой задачи, на ваш взгляд?
Мне кажется, эта задача похожа на задачу восстановления пунктуации.
Если я правильно понял, новый текст - это старый текст, где к каким-то символам применили операцию замены на более правильный символ. И количество этих замен довольно ограниченное.

Кажется, для такой задачи может подойти BERT-подобная модель for token classification, типа LaserTagger. Только, наверное, размеры токенов должны быть поменьше, чем обычно в BERT'е - так, чтобы на каждый токен приходилось не больше одной замены.
Обучал бы я её так:
1) Предобучаем обычный небольшой BERT (или RoBERTA) с маленьким словарём на задачу MLM на всех доступных текстах - и в старой орфографии, и в новой.
2) Файн-тюним эту же модель на параллельном корпусе, где на вход подаётся текст в старой орфографии, а на выходе нужно предсказать, к каким символам применить какие замены.
Построить такой параллельный корпус можно, взяв кучу текстов в новой орфографии, и какими-нибудь правилами "попортив" их, выкинув какие-то тоны. Ну или честно собрать его, если есть такая возможность.

Кажется, такая модель будет сильно более робастной, чем seq2seq, который иногда забывает часть исходного текста или, наоборот, начинает фантазировать.
источник

DD

David Dale in Natural Language Processing
Natalia
не, это норм задача для машинного перевода
Для машинного перевода задача действительно норм, но есть подозрение, что sequence tagging будет проще завести.
источник

N

Natalia in Natural Language Processing
ну возможно, я просто слишком много видела статей по нормализации орфографии и всякому разному (включая OCR-postcorrection), где подходили к этому как к задаче MT :)
источник

T

Timur in Natural Language Processing
David Dale
Мне кажется, эта задача похожа на задачу восстановления пунктуации.
Если я правильно понял, новый текст - это старый текст, где к каким-то символам применили операцию замены на более правильный символ. И количество этих замен довольно ограниченное.

Кажется, для такой задачи может подойти BERT-подобная модель for token classification, типа LaserTagger. Только, наверное, размеры токенов должны быть поменьше, чем обычно в BERT'е - так, чтобы на каждый токен приходилось не больше одной замены.
Обучал бы я её так:
1) Предобучаем обычный небольшой BERT (или RoBERTA) с маленьким словарём на задачу MLM на всех доступных текстах - и в старой орфографии, и в новой.
2) Файн-тюним эту же модель на параллельном корпусе, где на вход подаётся текст в старой орфографии, а на выходе нужно предсказать, к каким символам применить какие замены.
Построить такой параллельный корпус можно, взяв кучу текстов в новой орфографии, и какими-нибудь правилами "попортив" их, выкинув какие-то тоны. Ну или честно собрать его, если есть такая возможность.

Кажется, такая модель будет сильно более робастной, чем seq2seq, который иногда забывает часть исходного текста или, наоборот, начинает фантазировать.
пока не очень понимаю, почему seq2seq в качестве бейзлайна будет не очень робастной, учитывая то, что каждому токену (в нашем случае символу) соответствует другой
источник

N

Natalia in Natural Language Processing
Timur
пока не очень понимаю, почему seq2seq в качестве бейзлайна будет не очень робастной, учитывая то, что каждому токену (в нашем случае символу) соответствует другой
тут очень важен контекст
источник

T

Timur in Natural Language Processing
хотя да, лучше seq2seq на символах, наверное, не строить
источник

N

Natalia in Natural Language Processing
(хотя, конечно, и это зависит от тональной системы языка во многом)
источник

N

Natalia in Natural Language Processing
Vadim Fomin
А в орфографиях есть разница, кроме тонов?
ну вот e > ɛ как минимум
источник

VF

Vadim Fomin in Natural Language Processing
Natalia
ну вот e > ɛ как минимум
Тогда вопрос в том, можно ли эту разницу свести к правилам (и считать, что это постпроцессинг после sequence labeling'а), или она настолько значительна, что лучше предоставить сектусеку её выучивать
источник

IN

Ilya Nikitin in Natural Language Processing
Vadim Fomin
А в орфографиях есть разница, кроме тонов?
Да, есть замены для части согласных тоже. Но их меньше, чем для гласных
источник

VF

Vadim Fomin in Natural Language Processing
Ilya Nikitin
Да, есть замены для части согласных тоже. Но их меньше, чем для гласных
А замены тривиальные?
источник

IN

Ilya Nikitin in Natural Language Processing
Нет
источник

VF

Vadim Fomin in Natural Language Processing
то есть жесть как с гласными?
источник

VF

Vadim Fomin in Natural Language Processing
тогда наверное seq2seq имеет смысл
источник

VF

Vadim Fomin in Natural Language Processing
в принципе стоит попробовать оба и посмотреть, что взлетит
источник

N

Natalia in Natural Language Processing
а размер корпуса вообще большой?
источник

IN

Ilya Nikitin in Natural Language Processing
источник

N

Natalia in Natural Language Processing
а то ж от этого ещё как зависит качество нейронного машпера
источник

N

Natalia in Natural Language Processing
маловато
источник