I
У вас есть буквы с лейбелами, и слова без лейбелов.
Цель научиться читать слова. Количество букв в слове неизвестно.
То есть по идеи в данном слове нужно определить количество букв, и далее обозначить некоторый лосс как минимум суммы расстояний между каждой из букв в слове и каждой лейбированной буквой (правильное всегда совпадение уменьшит значительно эту сумму, исключение только в случае, что есть более одного варианта интерпретации структуры слова, но это только если китайский какой нибудь или бенгальский, в моем случае не думаю, что актуально).
Какие вообще подходы есть ?
Понятно, что можно просто кластеризацию на не лейблированные слова/тексты сделать, но у меня ведь есть буквы лейблированные, хотелось бы это использовать в character extraction из слова.