Size: a a a

R language and Statistical data analysis

2020 May 07

A

Alex in R language and Statistical data analysis
Спасибо!
источник

АР

Александр Райков... in R language and Statistical data analysis
Чем можно было бы определить взаимосвязь между k объектами и n категориями, где испытуемый обязан отнести каждый из k объектов к единственной из n категорий, при этом категории у разных объектов повторяться не могут?
источник

АР

Александр Райков... in R language and Statistical data analysis
Я так чувствую, это что-то на тему мультиномиального распределения, но какие тут критерии есть?
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Вопрос на творческое мышление. Дана таблица (data.table разумеется) и список фильтров. Необходимо отфильтровать таблицу.
library(data.table)
d <- data.table(
   a = c("a", "b", "c", "d"),
   b = c("a", "a", "b", "b")
)
l <- list(a = c("a", "b"), b = "a")

Решение влоб, дабы отсечь самый очевидный (для меня) вариант:
for (i in seq_along(l)) d <- d[get(names(l)[i]) %in% l[[i]]]
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Артём Клевцов
Вопрос на творческое мышление. Дана таблица (data.table разумеется) и список фильтров. Необходимо отфильтровать таблицу.
library(data.table)
d <- data.table(
   a = c("a", "b", "c", "d"),
   b = c("a", "a", "b", "b")
)
l <- list(a = c("a", "b"), b = "a")

Решение влоб, дабы отсечь самый очевидный (для меня) вариант:
for (i in seq_along(l)) d <- d[get(names(l)[i]) %in% l[[i]]]
Похоже получается. Не уверен, что универсально. library(data.table); library(magrittr)

d <- data.table(
   a = c("a", "b", "c", "d"),
   b = c("a", "a", "b", "b")
)

l <- list(a = c("a", "b"), b = "a")

d2 <- do.call(rbind, l) %>% t %>% as.data.table

d3 <- fintersect(d, d2, all = FALSE)
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Alexey Burnakov
Похоже получается. Не уверен, что универсально. library(data.table); library(magrittr)

d <- data.table(
   a = c("a", "b", "c", "d"),
   b = c("a", "a", "b", "b")
)

l <- list(a = c("a", "b"), b = "a")

d2 <- do.call(rbind, l) %>% t %>% as.data.table

d3 <- fintersect(d, d2, all = FALSE)
Сначала подумал, ну что за дичь 😁 А идея вполне годная оказалась. Доработанный вариант:
library(data.table)
d <- data.table(
 a = c("a", "b", "c", "d"),
 b = c("a", "a", "b", "b")
)
l <- list(a = c("a", "b"), b = "a")
l <- as.data.table(l)
merge(d, l, by = intersect(names(d), names(l)))

Только я её немного переинтерпетировал.
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Артём Клевцов
Сначала подумал, ну что за дичь 😁 А идея вполне годная оказалась. Доработанный вариант:
library(data.table)
d <- data.table(
 a = c("a", "b", "c", "d"),
 b = c("a", "a", "b", "b")
)
l <- list(a = c("a", "b"), b = "a")
l <- as.data.table(l)
merge(d, l, by = intersect(names(d), names(l)))

Только я её немного переинтерпетировал.
👍
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Артём Клевцов
Сначала подумал, ну что за дичь 😁 А идея вполне годная оказалась. Доработанный вариант:
library(data.table)
d <- data.table(
 a = c("a", "b", "c", "d"),
 b = c("a", "a", "b", "b")
)
l <- list(a = c("a", "b"), b = "a")
l <- as.data.table(l)
merge(d, l, by = intersect(names(d), names(l)))

Только я её немного переинтерпетировал.
Я усомнился сам в годности моего решения. Выбор идёт по полям независимо или на пересечении значений полей? Я сделал по-последнему
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Если независимо, то какой-то вид перебора кажется правильным. Вопрос в скорости, например на document-term matrix 50000*30000
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Alexey Burnakov
Я усомнился сам в годности моего решения. Выбор идёт по полям независимо или на пересечении значений полей? Я сделал по-последнему
Да тут без особых вариантов. Получается всё фильтры применяются через И. В любом случае спасибо за идею. Для меня ключевым моментом оказалось «схлопывание» фильтров в таблицу.
источник

АР

Александр Райков... in R language and Statistical data analysis
Александр Райков
Чем можно было бы определить взаимосвязь между k объектами и n категориями, где испытуемый обязан отнести каждый из k объектов к единственной из n категорий, при этом категории у разных объектов повторяться не могут?
В итоге пришёл к выводу, что математически равносильно хи-квадрату точного попадания, т.к. невыбор какой-то наиболее подходящей категории по переменной, из-за того, что ее уже отдали другому, ещё более подходящему объекту, по вероятности точно компенсируется вынужденным выбором той же самой категории для объекта, потому что остальное более подходящее израсходовали
источник

АР

Александр Райков... in R language and Statistical data analysis
А кстати, для хи-квадрата точного попадания post hoc бывает? Я когда-то искал и вроде не нашёл
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Артём Клевцов
Да тут без особых вариантов. Получается всё фильтры применяются через И. В любом случае спасибо за идею. Для меня ключевым моментом оказалось «схлопывание» фильтров в таблицу.
Аа, я рад тогда. Обычно и правда дичь делаю ;)
источник

VP

Veronika Ponizova in R language and Statistical data analysis
Александр Райков
А кстати, для хи-квадрата точного попадания post hoc бывает? Я когда-то искал и вроде не нашёл
а что такое хи-квадрат точного попадания? впервые слышу такое выражение. Согласия с распределением, что ли?
источник

АР

Александр Райков... in R language and Statistical data analysis
Goodness of fit для дискретного распределения
источник

VP

Veronika Ponizova in R language and Statistical data analysis
ну да, оно. понятно, спасибо
источник

АР

Александр Райков... in R language and Statistical data analysis
Вроде всегда такой русский перевод был
источник

VP

Veronika Ponizova in R language and Statistical data analysis
ну.. разве что в переводчике:)
источник

АР

Александр Райков... in R language and Statistical data analysis
Veronika Ponizova
ну.. разве что в переводчике:)
Нет, я это у Митиной впервые видел
источник

ГД

Григорий Демин... in R language and Statistical data analysis
Артём Клевцов
Сначала подумал, ну что за дичь 😁 А идея вполне годная оказалась. Доработанный вариант:
library(data.table)
d <- data.table(
 a = c("a", "b", "c", "d"),
 b = c("a", "a", "b", "b")
)
l <- list(a = c("a", "b"), b = "a")
l <- as.data.table(l)
merge(d, l, by = intersect(names(d), names(l)))

Только я её немного переинтерпетировал.
тогда уж, чтобы было совсем идиоматично:
library(data.table)
d <- data.table(
 a = c("a", "b", "c", "d"),
 b = c("a", "a", "b", "b")
)
l <- list(a = c("a", "b"), b = "a")
d[l, on = names(l)]
источник