При машинному навчанні зазвичай спочатку уніфікують дані, тобто викинуть всі пробіли, дефіси і все лишнє. Оскільки програмісти прекрасно розуміють, що дані без стандарту - означає, що будуть всі писати чорті як. Тобто на рівні програмування ці дані будуть уніфіковані, як би вони не були написані. Так роблять навіть, коли дані мають стандарт, оскільки треба виключити людський фактор, який завжди присутній в таких проектах - адже тут немає валідатора на вході.