Size: a a a

R language and Statistical data analysis

2020 May 12

JS

Jury Sergeev in R language and Statistical data analysis
ясно... а фильтровать их только вручную...
источник

JS

Jury Sergeev in R language and Statistical data analysis
по частотности... хотя можно же - фильтрануть по tf-idf, уже после LDA? или до LDA
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Где биграммы там и триграммы. Все ограничено ничем ))) Моим заказчикам зороши зашли наборы униграмм в описании. Фильтрацию можно сделать через словарь частей речи.
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Jury Sergeev
по частотности... хотя можно же - фильтрануть по tf-idf, уже после LDA? или до LDA
Да, надо фильтровать до tf-idf
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Можно просто по частоте
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Я так и делаю
источник

JS

Jury Sergeev in R language and Statistical data analysis
это да, как очистка... а я о том что tf-idf же делает акцент на специфичные для документов термины... а LDA - на частотах, и подумалось - а что если перед LDA фильтрануть n-граммы по tf-idf
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Качество субъективно не падает, если оставить 80% квантиль токенов по частоте
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Jury Sergeev
это да, как очистка... а я о том что tf-idf же делает акцент на специфичные для документов термины... а LDA - на частотах, и подумалось - а что если перед LDA фильтрануть n-граммы по tf-idf
Это не воспрещается никоим образом. Просто снимаешь/уменьшаешь размерность задачи.
источник

JS

Jury Sergeev in R language and Statistical data analysis
благодарю за опыт )
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Только рад! Темы получаются осмысленные даже на таком месиве как новости
источник

JS

Jury Sergeev in R language and Statistical data analysis
класс, исследовательский зуд только растет ))
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Кстати я пробовал удалять разный процент низкочастотных токенов. Если удалять мало, начинают выявляться темы про всякие Новые айфоны, Собчак
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Если половину удалить, то уже посолиднее. Путин правительство, Сирия. Тут надо продуктово подумать, что важнее , жирные темы или детальные темы
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Сейчас тема про коронавирус в 10 больше всех остальных, причем я чищу 75% токенов
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Alexander Semenov
Там вот такие были визуализации, которые в реальном времени обновлялись. Собственно "волны" -- это и есть топики из LDA. Мы это во время ежегодных посланий Путина гоняли.
Интересно сделали
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Я щас тоже покажу как успня в реалтайм. Но там не граф и не LDA, а SVD+rotation. Факторный анализ. Отдельная тема)
источник

AB

Alexey Burnakov in R language and Statistical data analysis
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Немножко закрытая инфа... Тут сравнение ещё с другими информ.агентствами по важным показателям. Раз в минуту обновляется. Просим 250 сайтов новостей для этих тем
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Все на r shiny
источник