Size: a a a

R (язык программирования)

2020 November 22

ЕТ

Евгений Томилов... in R (язык программирования)
Так. И, получается, мне потом просто по ним вычислишь расстояния попарные, верно?
источник

JS

Jury Sergeev in R (язык программирования)
Ну да
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Вот, у меня есть столбец, к примеру, "длина строки", и я к нему клею матрицу tf-idf.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
И это получается просто ещё, предположим, 20 фич.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
И я по ним считаю какого-нибудь Минковского, после чего подаю это на вход какому-нибудь dbscan.
источник

A

Andrey in R (язык программирования)
а зачем "по ним" что-то считать?  dbscan работает прямо на фичах
источник

A

Andrey in R (язык программирования)
стандартизацию только полезно вначале сделать, или как-то иначе привести к одному масштабу все
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Andrey
стандартизацию только полезно вначале сделать, или как-то иначе привести к одному масштабу все
Да, да, конечно.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Andrey
а зачем "по ним" что-то считать?  dbscan работает прямо на фичах
Ну, да, но я для примера привел. Конкретно dbscan у меня падает. Там 200к*150 получается датасет.
источник

A

Andrey in R (язык программирования)
сделай k-means на 10к центроидов и дбскань уже их :smekalka:
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Andrey
сделай k-means на 10к центроидов и дбскань уже их :smekalka:
ХА
источник

MM

Mikle Mikle in R (язык программирования)
Andrey
сделай k-means на 10к центроидов и дбскань уже их :smekalka:
+++
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Очень по-roosky. Спасибо!
источник

БА

Байкулов Антон... in R (язык программирования)
Прохожу курс "Основы программирования на R" на степике. Терпения не хватает.
А нет ли курса по программированию на R, где преподаёт не математик, а программист?

Очень уж тяжело идёт, эта ложечка комбинаторики.
источник

IY

Igor Yakubovskiy in R (язык программирования)
Евгений Томилов
Может, у кого-то есть под рукой статья с примером того, как кластеризуют текст, соединяя информацию из tf-idf и прочих фич?
LDA делай
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Igor Yakubovskiy
LDA делай
Дык оно-то как поможет? Хм.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Andrey
сделай k-means на 10к центроидов и дбскань уже их :smekalka:
Так, я что-то затупил. Ну, сделал я на 10К центроидов, и как мне их дбсканить? Тип я считаю, что центроид выражает сущность группы текстов?
источник

A

Andrey in R (язык программирования)
Евгений Томилов
Так, я что-то затупил. Ну, сделал я на 10К центроидов, и как мне их дбсканить? Тип я считаю, что центроид выражает сущность группы текстов?
ну да
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Andrey
ну да
Ага. То есть, было у меня 200К коротких текстов, а стало, грубо говоря, 10К самых представительных.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Спасибо!
источник