Телеграмм чат группы rlang

вместо 1:2000 можешь сделать sample(.N, 2000), это отдаст тебе не первые 2000 строки группы, а случайные 2000 строки группы

23:13пожаловаться #1

Philipp Upravitelev

ты что делаешь, изверг %)))

если это у тебя data.table, возьми просто
my_dt <- fread()
features <- my_dt[, .SD[1:2000], by = list(san = account_number)]

Кто ещё изверг? У меня от этого кода ноут колом встал. Пишу с телефона.

23:16пожаловаться #2

странно, у тебя ж там всего миллион строк
хотя да, на 170 колонок
память забил поди всю %)
щас отомрет, думаю :)

23:17пожаловаться #3

Причем не самый древний ноут.

23:18пожаловаться #4

16Gb RAM

23:18пожаловаться #5

ну брось, у меня ноут шестилетней давности с 12 гб рам и хромом с миллионом вкладок нормально таблицы по 10-20 млн ворочает
но у меня колонок меньше, конечно

23:19пожаловаться #6

Ну вот. А у меня даже мышь сейчас не шелохается.

23:20пожаловаться #7

странно. прости, я не предполагал, что оно так будет %(

впрочем, если уж у тебя dt колом встал, то и тайди помер бы, подозреваю :)))

23:23пожаловаться #8

Ну почему же? Моментально отработал. Только результат не тот вернул =)

23:24пожаловаться #9

Alexander Semenov

Ну почему же? Моментально отработал. Только результат не тот вернул =)

это не отработал, значит :)

попробуй мой синтаксис с меньшим числом и на меньшем объеме
потому что это достаточно простая операция, не должна она вешать комп

хотя если ты взял sample() и у тебя много групп, неудивительно, что он думает

23:27пожаловаться #10

Комп ещё думает. Там 63000 уникальный san.

23:28пожаловаться #11

мама

23:29пожаловаться #12

тогда я не понимаю, чего ты вообще хочешь
63к * 2к, это 126 миллионов, а у тебя в сто раз меньше, судя по скрину

23:30пожаловаться #13

У меня есть 63000 san, по каждому n записей (при n от 1 до 20). Мне нужна случайная выборка в 2000 уникальных san.

23:33пожаловаться #14

ну блин. это же совсем не то, что ты написал
ты написал 2к на каждое значение san

23:34пожаловаться #15

Alexander Semenov

У меня есть 63000 san, по каждому n записей (при n от 1 до 20). Мне нужна случайная выборка в 2000 уникальных san.

в dt эту задачу я бы делал примитивным путем, вот так

my_dt <- fread()
san <- my_dt[, unique(account_number)]
san <- sample(san, 2000)
features <- my_dt[account_number %in% san]

23:39пожаловаться #16

А разве твой пример вернёт 2000 строк?

23:41пожаловаться #17

мой пример вернет 2000 * n, то есть по n строк 2000 уникальных san
если тебе просто 2k san нужны, последняя строчка лишняя

23:41пожаловаться #18

Спасибо, пойду спать лучше. Что-то я совсем перестал тебя понимать.

23:44пожаловаться #19

завтра напиши, если что%)