Где биграммы там и триграммы. Все ограничено ничем ))) Моим заказчикам зороши зашли наборы униграмм в описании. Фильтрацию можно сделать через словарь частей речи.
это да, как очистка... а я о том что tf-idf же делает акцент на специфичные для документов термины... а LDA - на частотах, и подумалось - а что если перед LDA фильтрануть n-граммы по tf-idf
это да, как очистка... а я о том что tf-idf же делает акцент на специфичные для документов термины... а LDA - на частотах, и подумалось - а что если перед LDA фильтрануть n-граммы по tf-idf
Это не воспрещается никоим образом. Просто снимаешь/уменьшаешь размерность задачи.
Там вот такие были визуализации, которые в реальном времени обновлялись. Собственно "волны" -- это и есть топики из LDA. Мы это во время ежегодных посланий Путина гоняли.
Немножко закрытая инфа... Тут сравнение ещё с другими информ.агентствами по важным показателям. Раз в минуту обновляется. Просим 250 сайтов новостей для этих тем