Size: a a a

R (язык программирования)

2020 June 19

AS

Alexander Semenov in R (язык программирования)
Евгений Балакловский
наверняка какой нибудь rowwise не дропнули, там где это надо 🙂
rowwise() есть, но чтобы дропнуть его где надо, неплохо бы для начала понять, что он делает 😂
источник

AS

Alexander Semenov in R (язык программирования)
aGricolaMZ
может попробовать dtplyr?
Если вышеозначенный rowwise() там есть, то почему бы и нет?
источник

ЕБ

Евгений Балакловский... in R (язык программирования)
Alexander Semenov
rowwise() есть, но чтобы дропнуть его где надо, неплохо бы для начала понять, что он делает 😂
роувайс в новой версии summarize() и mutate() если что дропается через аргумент без ungroup()
источник

ЕБ

Евгений Балакловский... in R (язык программирования)
начиная с dplyr 1.0.0
источник

E

EK479 in R (язык программирования)
Подскажите, пожалуйста, почему не работает.
library(data.table)
all_data<-load("https://stepik.org/media/attachments/course/724/all_data.Rdata")
get_id <- function(data_list){
 names( data_list ) <- paste0( "day", 1:length(data_list))
 DT <- rbindlist( data_list, use.names = TRUE, fill = TRUE, idcol = "day" )
 ans <- dcast( DT, id ~ day, value.var = "temp" )
 ans<-na.omit(ans)
 result<-data.frame(id=ans[,1], temp_mean=rowMeans(ans[,-1]))  
 return(result)
}
get_id(all_data)
Ошибка в rbindlist(data_list, use.names = TRUE, fill = TRUE, idcol = "day") :
 Input is character but should be a plain list of items to be stacked
Как это исправить?
источник

Ю

Юрий 🐙💻🤖📊📈🚬... in R (язык программирования)
Alexander Semenov
Вот и настал момент, когда скриптец на dplyr() бежал более полутора часа на производственных данных в жалкие 800 000 строк. Кажется, пора наконец разобраться в том, что он делает и воспроизвести в этом вашем data.table. Ждите тупых вопросов.
У меня на 500000 до 1 млн достаточно быстро все делает, максимально до 20 минут. У коллег в Экселе намного дольше на этих же массивах,либо вообще отказывается считать
источник

AS

Alexander Semenov in R (язык программирования)
Евгений Балакловский
роувайс в новой версии summarize() и mutate() если что дропается через аргумент без ungroup()
Спасибо, покурю на выходных. Так как необходимость производственная, то не грех бы и разобраться.

... раз уж разработчики почти год не могут починить баг из-за которого стоимость услуг, входящих в пакет услуг, учитывается вместе со стоимостью пакета 😱.
источник

PU

Philipp Upravitelev in R (язык программирования)
EK479
Подскажите, пожалуйста, почему не работает.
library(data.table)
all_data<-load("https://stepik.org/media/attachments/course/724/all_data.Rdata")
get_id <- function(data_list){
 names( data_list ) <- paste0( "day", 1:length(data_list))
 DT <- rbindlist( data_list, use.names = TRUE, fill = TRUE, idcol = "day" )
 ans <- dcast( DT, id ~ day, value.var = "temp" )
 ans<-na.omit(ans)
 result<-data.frame(id=ans[,1], temp_mean=rowMeans(ans[,-1]))  
 return(result)
}
get_id(all_data)
Ошибка в rbindlist(data_list, use.names = TRUE, fill = TRUE, idcol = "day") :
 Input is character but should be a plain list of items to be stacked
Как это исправить?
у меня почему-то даже датасет не импортится, вы корректно ссылку указали?
источник

PU

Philipp Upravitelev in R (язык программирования)
а, ну логично, load не работает же с ссылкой
источник

E

EK479 in R (язык программирования)
Philipp Upravitelev
у меня почему-то даже датасет не импортится, вы корректно ссылку указали?
у себя я делала не через ссылку, но все равно не работает.
https://stepik.org/media/attachments/course/724/all_data.Rdata
источник

PU

Philipp Upravitelev in R (язык программирования)
EK479
у себя я делала не через ссылку, но все равно не работает.
https://stepik.org/media/attachments/course/724/all_data.Rdata
да, я понял, сейчас попробую
источник

A

Andrey in R (язык программирования)
EK479
Подскажите, пожалуйста, почему не работает.
library(data.table)
all_data<-load("https://stepik.org/media/attachments/course/724/all_data.Rdata")
get_id <- function(data_list){
 names( data_list ) <- paste0( "day", 1:length(data_list))
 DT <- rbindlist( data_list, use.names = TRUE, fill = TRUE, idcol = "day" )
 ans <- dcast( DT, id ~ day, value.var = "temp" )
 ans<-na.omit(ans)
 result<-data.frame(id=ans[,1], temp_mean=rowMeans(ans[,-1]))  
 return(result)
}
get_id(all_data)
Ошибка в rbindlist(data_list, use.names = TRUE, fill = TRUE, idcol = "day") :
 Input is character but should be a plain list of items to be stacked
Как это исправить?
очередная контрольная работа со Степика?
источник

PU

Philipp Upravitelev in R (язык программирования)
EK479
Подскажите, пожалуйста, почему не работает.
library(data.table)
all_data<-load("https://stepik.org/media/attachments/course/724/all_data.Rdata")
get_id <- function(data_list){
 names( data_list ) <- paste0( "day", 1:length(data_list))
 DT <- rbindlist( data_list, use.names = TRUE, fill = TRUE, idcol = "day" )
 ans <- dcast( DT, id ~ day, value.var = "temp" )
 ans<-na.omit(ans)
 result<-data.frame(id=ans[,1], temp_mean=rowMeans(ans[,-1]))  
 return(result)
}
get_id(all_data)
Ошибка в rbindlist(data_list, use.names = TRUE, fill = TRUE, idcol = "day") :
 Input is character but should be a plain list of items to be stacked
Как это исправить?
вы неправильно load используете, надо просто load, без присвоения
в общем, у меня функция отрабатывает на импортированном объекте.
источник

PU

Philipp Upravitelev in R (язык программирования)
Alexander Semenov
Вот и настал момент, когда скриптец на dplyr() бежал более полутора часа на производственных данных в жалкие 800 000 строк. Кажется, пора наконец разобраться в том, что он делает и воспроизвести в этом вашем data.table. Ждите тупых вопросов.
велкам
источник

E

EK479 in R (язык программирования)
Andrey
очередная контрольная работа со Степика?
Да)
источник

E

EK479 in R (язык программирования)
Philipp Upravitelev
вы неправильно load используете, надо просто load, без присвоения
в общем, у меня функция отрабатывает на импортированном объекте.
спасибо, работает!
источник

GS

Gleb Suvorov in R (язык программирования)
Юрий 🐙💻🤖📊📈🚬
У меня на 500000 до 1 млн достаточно быстро все делает, максимально до 20 минут. У коллег в Экселе намного дольше на этих же массивах,либо вообще отказывается считать
у меня на 20+млн в dt фигарит вообще со скоростью звука на не новом ноуте, но наверно, зависит от сложности вычислений в тчч
источник

Ю

Юрий 🐙💻🤖📊📈🚬... in R (язык программирования)
Gleb Suvorov
у меня на 20+млн в dt фигарит вообще со скоростью звука на не новом ноуте, но наверно, зависит от сложности вычислений в тчч
Это да, но я больше чем в 1-2 млн не работаю, мне вполне скорости dplyr хватает
источник

А

Александр in R (язык программирования)
Gleb Suvorov
у меня на 20+млн в dt фигарит вообще со скоростью звука на не новом ноуте, но наверно, зависит от сложности вычислений в тчч
У меня 1.5 млрд строчек и пара десятков колонок, считал на серваке с 16 ядрами и 256Гб оперативы, с dt даже не заметно что данные большие были
источник

А

Александр in R (язык программирования)
А сейчас в пандасе на ноуте делаю группбай по двум колонкам с простой аггрегацией, 20 млн на ноуте более 10 минут, не дождался когда закончит вырубил
источник