Посмотрел презу и тоже вдохновился. Я сейчас имею другой фокус, когда темы выделяю на основе семантического графа и метрик, которые получаются в пределах одной единицы текста. Прелалагемое
@Alexey_Burnakov решение интересно в случае, когда конкретные темы неизвестны. Например, на моих инфляциях, скорее всего, не взлетит, поэтому я работаю по сути атомарно, с каждым документом отдельно. Заодно социологам дает возможности работать с контент-анализом каким-то точнее
Но пока не знаю, не проверял до конца :)))