Коллеги, привет! Мб кто-нибудь разбирался/сравнивал, какой сейчас SOTA подход для задачи кластеризации? Мне только приходит в голову SBERT + Kmeans поверх его нормализованных эмбеддингов
SOTA единого нет, ибо задачи для кластеризации очень разные. Но вообще подход "твой любимый sentence encoder" (SBERT/LaBSE/USE/Laser/...)" + "твой любимый кластеризатор" (kmeans/dbscan/birch/...) работает норм.
Всем привет) Кто-нибудь знает, почему spacy в предложении To smoke is bad for health. определяет POS слова smoke как NOUN, а не VERB? И как с этим бороться?