Size: a a a

R language and Statistical data analysis

2020 May 12

АК

Артём Клевцов... in R language and Statistical data analysis
Alexander Semenov
Я про синтаксис. То, что у нас куча форматов дата.фреймов и они несовместимы между собой я только сегодня тут в ходе беседы узнал.
Это не форматы дата фреймов, а объекты разных классов с характерными для них атрибутами и методами.
источник

АТ

Андрей Томаровский... in R language and Statistical data analysis
-_-
источник

AS

Alexander Semenov in R language and Statistical data analysis
Вот за это нас, менеджеров, и не любят.
источник

a

aGricolaMZ in R language and Statistical data analysis
А что вы думаете про tidymodels? При всей любви к tidyverse, мне они кажутся немного избыточными...
источник

AS

Alexander Semenov in R language and Statistical data analysis
Я почитал недавнюю статью на Хабре про mlr3 и понял, что с ML надо на Python переезжать.
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexey Burnakov
Я использую в одном из решений igraph на графе похожести текстов (квадратная матрица). Partitioning делаю через short random walks с количеством итераций 10000. Что-то похожее на темы получается.
интересное... а что-то почитать про такое есть где???? есть для себя потребность тексты поисследовать...
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexander Semenov
Я почитал недавнюю статью на Хабре про mlr3 и понял, что с ML надо на Python переезжать.
ужис? почему??
источник

AB

Alexey Burnakov in R language and Statistical data analysis
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Jury Sergeev
интересное... а что-то почитать про такое есть где???? есть для себя потребность тексты поисследовать...
Приложил мою презу именно про этот подход
источник

AB

Alexey Burnakov in R language and Statistical data analysis
По шагам выглядит так:
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexey Burnakov
Приложил мою презу именно про этот подход
благодарю! )
источник

AB

Alexey Burnakov in R language and Statistical data analysis
1) Сырой текст лемматизируем. Я использую yandex mystem. И делаю многопоточность
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Вызов через system
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Alexey Burnakov
1) Сырой текст лемматизируем. Я использую yandex mystem. И делаю многопоточность
а что не udpipe? он хорош ведь
источник

AB

Alexey Burnakov in R language and Statistical data analysis
2) строим proximity matrix. Тут надо с памятью не переборщить
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexey Burnakov
1) Сырой текст лемматизируем. Я использую yandex mystem. И делаю многопоточность
ага, тоже его применяю )
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Philipp Upravitelev
а что не udpipe? он хорош ведь
Я его попробовал на новостях. Во-первых он не работает параллельно. Во-вторых, и это самое главное, леммы для некоторых слов получились нерусскими, я имею в виду, они неграмотные
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexey Burnakov
2) строим proximity matrix. Тут надо с памятью не переборщить
так...
источник

AS

Alexander Semenov in R language and Statistical data analysis
Было у нас поделие, которое в реальном времени выделяло топики в твиттере и строило по ним динамические визуализации. Мы с ним даже какой-то конкурс грантов в ВШЭ выиграли. Развивать не стали, а сейчас понимаю, что зря. Хотя опыт "продаж" в те же РИА Новости был не особо обнадёживающим. Чуть попозже скину скриншоты. Там всех стабильно веселило, что рядом с фоткой Путина всё время всплывал хэштег #хуйло.
источник

AB

Alexey Burnakov in R language and Statistical data analysis
3) матрицу близостей загружаем в функцию igraph, не помню точно, типа, graph_from_affinity
источник