Я думаю тут даже не в нейронке дело. А в начальных данных бля нее. То есть тексты должны быть "эталонные". Ну допустим мы надергаем контента по ключам мегабайт на 50. Его в идеале надо вычитать и посмотреть что текст нормальный. 50 мегабайт текста это охренительный объем текста.
Я думаю тут даже не в нейронке дело. А в начальных данных бля нее. То есть тексты должны быть "эталонные". Ну допустим мы надергаем контента по ключам мегабайт на 50. Его в идеале надо вычитать и посмотреть что текст нормальный. 50 мегабайт текста это охренительный объем текста.
Ну тогда проще всех классиков литературы взять с эталонным языком.
В идеале я думаю надо топ3 по всем ключам взять, надергать от туда текстовки и на этом учить. Но текст надо опять же проверять. Нельзя учить нейронку распознавать котиков по фото коров.
В идеале я думаю надо топ3 по всем ключам взять, надергать от туда текстовки и на этом учить. Но текст надо опять же проверять. Нельзя учить нейронку распознавать котиков по фото коров.
Или нагегерить марковым 100мб текста и скормить это нейронке. Получится нейронка-идиот. Ну, не такая как все.
В буквариксе есть анализатор слов. Даешь список фраз, на выходе только уникальные слова. Но вроде это не поможет. Я сам не знаю как в такой ситуации быть, недавно генерил дор и увидел похожую проблему.