Есть задача: миллионы коротких текстов внутри корп мессенджера. Нужно определять тематику для классификации. Стали использовать fasttext, но обучающая и тестовая выборки плывут, тк сотрудники сильно шумят в переписках и тем в рамках одного обсуждения может быть много.