Я использую в одном из решений igraph на графе похожести текстов (квадратная матрица). Partitioning делаю через short random walks с количеством итераций 10000. Что-то похожее на темы получается.
интересное... а что-то почитать про такое есть где???? есть для себя потребность тексты поисследовать...
Я его попробовал на новостях. Во-первых он не работает параллельно. Во-вторых, и это самое главное, леммы для некоторых слов получились нерусскими, я имею в виду, они неграмотные
Было у нас поделие, которое в реальном времени выделяло топики в твиттере и строило по ним динамические визуализации. Мы с ним даже какой-то конкурс грантов в ВШЭ выиграли. Развивать не стали, а сейчас понимаю, что зря. Хотя опыт "продаж" в те же РИА Новости был не особо обнадёживающим. Чуть попозже скину скриншоты. Там всех стабильно веселило, что рядом с фоткой Путина всё время всплывал хэштег #хуйло.