Народ, нужен совет по задаче классификации на несколько классов: на вход приходит короткий запрос (1-2 предложения). Ему нужно присвоить один/несколько классов. Всего желаемых классов ~20, есть датасет без таргетов и скорее всего с дисбалансом классов. Для классификации хочу tfidf и svd, но не понимаю, как разобрать исходный датасет. Кластеризация и тематическое моделирование?
Надёжнее всего будет разметить примеры вручную)
Например, разметить какое-то количество примеров самому, а потом, если лень продолжать, сделать задание на Толоке с перекрытием.