выполняем задачу классификации очень коротких фраз (1-3 токена). Сейчас используем иерархическую классификацию на основе близости фразы к контрольным (косинусное расстояние). Пока точность удовлетворительная, но с ростом количества классов понимаем, что такой подход усложнит развитие сервиса. Хотелось бы спросить куда еще смотреть в плане признаков (кроме значения коэф. близости): n-граммы для слов не подходят, как использовать части речи пока тоже идей нет (вся фраза будет представлена с высокой вероятностью или ГЛ + СУЩ / СУЩ + ГЛ или СУЩ , так что непонятно как разделять с помощью POS) что порекомендуете еще? n граммы букв? добавить ливенштейна? построить связи родитель-потомок?