Size: a a a

R language and Statistical data analysis

2020 May 12

AB

Alexey Burnakov in R language and Statistical data analysis
Как то так... Сори, не под рукой код
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
а самому распараллелить?
не понял, если честно, проблему

хм. странно. не так чтобы много гонял, но мне казался вполне хорошим
а mystem очень уж медленный (был лет пять назад, когда я его тыкал, правда). да и там вроде есть лицензионные ограничения на него
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Jury Sergeev
так...
Эта матрица , поясню, получается через расчет cosine based on tf(idf)
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Philipp Upravitelev
а самому распараллелить?
не понял, если честно, проблему

хм. странно. не так чтобы много гонял, но мне казался вполне хорошим
а mystem очень уж медленный (был лет пять назад, когда я его тыкал, правда). да и там вроде есть лицензионные ограничения на него
Вызов функции утыкается в колл объекта, который не загружается в память (словарь и что то там ещё)
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexander Semenov
Было у нас поделие, которое в реальном времени выделяло топики в твиттере и строило по ним динамические визуализации. Мы с ним даже какой-то конкурс грантов в ВШЭ выиграли. Развивать не стали, а сейчас понимаю, что зря. Хотя опыт "продаж" в те же РИА Новости был не особо обнадёживающим. Чуть попозже скину скриншоты. Там всех стабильно веселило, что рядом с фоткой Путина всё время всплывал хэштег #хуйло.
интересное, однако )
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Ошибка идёт
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Alexey Burnakov
Вызов функции утыкается в колл объекта, который не загружается в память (словарь и что то там ещё)
То есть словарь как ссылка с жёсткого диска
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
хм. да, помню такое
ок, что сказать. не параллелится так не параллелится
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Philipp Upravitelev
хм. да, помню такое
ок, что сказать. не параллелится так не параллелится
А mystem параллелиться и даёт прирост неплохой
источник

a

aGricolaMZ in R language and Statistical data analysis
Я согласен, mystem должен быть лучше, чем udpipe, по моему опыту
источник

AS

Alexander Semenov in R language and Statistical data analysis
Jury Sergeev
интересное, однако )
Там вот такие были визуализации, которые в реальном времени обновлялись. Собственно "волны" -- это и есть топики из LDA. Мы это во время ежегодных посланий Путина гоняли.
источник

AB

Alexey Burnakov in R language and Statistical data analysis
4) пункт. Когда граф есть, на нем вызывается функция partitioning из того же пакета. Вообще в igraph много всего... Даже обычная иерархическая кластеризация. Но я использовал short random walks. Это алгоритм а ля Монте Карло, когда блуждание по графу производится согласно вероятностям переходов. Создаются индексы кластеров. Потом можно визуализировать в 2D
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexey Burnakov
3) матрицу близостей загружаем в функцию igraph, не помню точно, типа, graph_from_affinity
очень благодарен ) к сожалению, не математик, а инженер-практик, не въезжаю пока во всякие papers, эльфийский сложноват мне...
источник

AB

Alexey Burnakov in R language and Statistical data analysis
5) Описание кластеров через top-n tokens или похожим образом
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexander Semenov
Там вот такие были визуализации, которые в реальном времени обновлялись. Собственно "волны" -- это и есть топики из LDA. Мы это во время ежегодных посланий Путина гоняли.
вижу в основном слова... а биграммы заходят, когда через  LDA топики генерят?
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Jury Sergeev
очень благодарен ) к сожалению, не математик, а инженер-практик, не въезжаю пока во всякие papers, эльфийский сложноват мне...
Надо виньетки посмотреть и просто кейсы. Там куча функций и параметров. Богатая библиотека. надо вчитываться в параметры. Например, короткие случайные блуждания хорошо работают, когда их запускают много раз, я делаю 10 000. Чем больше, тем лучше. Визуализация в 2D может получиться красивой, если подобрать метод. В методе тоже итерации есть. Надо ставить много.
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexey Burnakov
Надо виньетки посмотреть и просто кейсы. Там куча функций и параметров. Богатая библиотека. надо вчитываться в параметры. Например, короткие случайные блуждания хорошо работают, когда их запускают много раз, я делаю 10 000. Чем больше, тем лучше. Визуализация в 2D может получиться красивой, если подобрать метод. В методе тоже итерации есть. Надо ставить много.
ух, как все это интересно и маняще, спасибо!
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Jury Sergeev
вижу в основном слова... а биграммы заходят, когда через  LDA топики генерят?
Я делаю через униграммы
источник

AS

Alexander Semenov in R language and Statistical data analysis
Jury Sergeev
вижу в основном слова... а биграммы заходят, когда через  LDA топики генерят?
Это ж 6 лет назад было. Помню только Hierarchical LDA на Твитах (т.к. он сам топики выделял). "Теги" над фоткой -- это вроде бы основные представители топиков. Там видно, что есть "встреча путина", "путин порошенко" и т.д.
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Биграм получается так много... Если 30000 уникальных токенов, то биграм в теории до 30000^2. Конечно, столько не будет. Но будет много )
источник