Всем привет. Еще одна задача, где хорошо зашел pipeline с rubert-tiny. Есть набор текстов по времени, с сотню наверное, и непрерывнозначащая величина, которая может быть выше текущего уровня или ниже (классификация).
X = sequence.reshape(-1, 312*history),
pipeline: TruncatedSVD(312) -> LogReg(class_weight="balanced")
показывает шкалящую аккуру на отложенном тесте, около 98%, при дисбалансе 20/80.
хз, конечно датасет роляет, но тоже про качество эмбеддингов. на tfidf acc train/test были ~ 87%.