Size: a a a

R (язык программирования)

2020 October 28

AS

Alexander Semenov in R (язык программирования)
Philipp Upravitelev
добавь к решению выбор одной строки каждого san (features[, .SD[1], by = account_number] ), и получишь нужный тебе результат
Ну в общем `features[, .SD[1], by = account_number]` did the trick. Спасибо. На свежую голову подумаю, как это переписать the tidy way.
источник

PU

Philipp Upravitelev in R (язык программирования)
зачем? оно ж будет медленнее
источник

AS

Alexander Semenov in R (язык программирования)
Ну хотя бы для того, чтобы разобраться, как же работает этот slice_sample().
источник

AS

Alexander Semenov in R (язык программирования)
Или что мне там для этой задачи надо
источник

PU

Philipp Upravitelev in R (язык программирования)
ты ж хотел на dt переходить :)
источник

AS

Alexander Semenov in R (язык программирования)
Да. Просто мне кажется странным уметь выполнять операцию (не самую редкую) только в одном фреймворке и не уметь в другом.

Моя сейчас делает анализ датасета на кеггле для портфолио, так у ней на одной строке gsub(), а на следующей — str_replace(). Я ей сказал, что это будет плохо смотреться. Ну и самому бы своим словам не мешало следовать.
источник

PU

Philipp Upravitelev in R (язык программирования)
логично
источник

С

Сергей Якунин... in R (язык программирования)
😀 Привет пипл
источник

АК

Артём Клевцов... in R (язык программирования)
Philipp Upravitelev
добавь к решению выбор одной строки каждого san (features[, .SD[1], by = account_number] ), и получишь нужный тебе результат
Может просто unique by?
источник

АК

Артём Клевцов... in R (язык программирования)
Philipp Upravitelev
не, я не понимаю этот мир
ну зачем dt_case_when() for dplyr::case_when(), когда есть fcase с аналогичным синтаксисом
dt_pivot_wider() вообще смешно. сначала gather заменили на pivot_wider(), по легкой аналогии с dcast, потом сделали аналог аналога.
fcase появился совсем не давно. Скорее всего dt_case_when был реализован, когда fcase ещё не было.
источник

A

Andrey in R (язык программирования)
Alexander Semenov
Я не понимаю, что значит "и их строк"? Если это записи этих 2000 san, за все даты, что есть в исходной таблице, то это не то, что мне надо. Мне нужно 2000 строк с 2000 уникальных san. Дата (пока) значения не имеет.
Есть быстрое решение через self join.
источник

AS

Alexander Semenov in R (язык программирования)
Да я вчера по бессознанке наколбасил что-то типа df %>% group_by(id) %>% slice_sample(n=1) %>% ungroup() %>% sample_n(2000). Но что-то мне подсказывает, что это не самый эстетичный вариант.
источник

A

Andrey in R (язык программирования)
источник

A

Andrey in R (язык программирования)
Смотри ответ Мэтта. Я таким образом раз в 100 ускорился
источник

AS

Alexander Semenov in R (язык программирования)
Спасибо.
источник

AS

Alexander Semenov in R (язык программирования)
Тут недавно КХ нахваливали, а я вот не помню, когда у меня к нашему КХ в последний раз запрос отбегал без падений. Уники по РФ/типам устройств за месяц не могу посчитать. А там всего каких-то 14 млрд. записей провернуть надо.
источник

AS

Alexander Semenov in R (язык программирования)
Это в КХ или кривых руках разрабов проблема?
источник

АК

Артём Клевцов... in R (язык программирования)
Партиции должны решать проблему, чтобы не сканить всю таблицу.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Дамы и господа, помогите найти, пожалуйста. Я хочу рассчитать мощность для теста пропорций non-inferiority при условии, что у меня отношение групп не 1:1, а 0.93.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Но не могу нагуглить никак модификацию.
источник