Телеграмм чат группы rlang

2021 February 27

EM

Evgeniy Myskov in R (язык программирования)

Dmitry Perepechin

Там в вопросе специально указано что это не читшит с рстудио :)

Сорри)

источник

11:29пожаловаться #1

E

Eкатерина in R (язык программирования)

здравствуйте. у меня данные в таком формате, что есть разные переменные, которые в подходящем формате. но вот индустрия компании закодирована через 0 и 1. т.е в дата сете столбцы с названием индустрии (медицина, образование, торговля), а в этих столбцах 0 и 1. если это например образование то в стороке 1, а все остальные столбцы с индустриями будут содержать 0. как мне привести это в такой формат, когда у меня есть один столбец под названием индустрия, а в строках у него название этих индустрий?

источник

11:42пожаловаться #2

М

Марк in R (язык программирования)

Eкатерина

здравствуйте. у меня данные в таком формате, что есть разные переменные, которые в подходящем формате. но вот индустрия компании закодирована через 0 и 1. т.е в дата сете столбцы с названием индустрии (медицина, образование, торговля), а в этих столбцах 0 и 1. если это например образование то в стороке 1, а все остальные столбцы с индустриями будут содержать 0. как мне привести это в такой формат, когда у меня есть один столбец под названием индустрия, а в строках у него название этих индустрий?

Это называется широкий формат. Вам нужно в длинный их перевести. Воспользоваться можно функцией pivot_longer из пакета tidyr.

источник

11:45пожаловаться #3

М

Марк in R (язык программирования)

Eкатерина

здравствуйте. у меня данные в таком формате, что есть разные переменные, которые в подходящем формате. но вот индустрия компании закодирована через 0 и 1. т.е в дата сете столбцы с названием индустрии (медицина, образование, торговля), а в этих столбцах 0 и 1. если это например образование то в стороке 1, а все остальные столбцы с индустриями будут содержать 0. как мне привести это в такой формат, когда у меня есть один столбец под названием индустрия, а в строках у него название этих индустрий?

У Алексея Селезнева была статья на эту тему
https://alexeyseleznev.wordpress.com/2019/06/25/r-%D0%BF%D0%B0%D0%BA%D0%B5%D1%82-tidyr-%D0%B8-%D0%B5%D0%B3%D0%BE-%D0%BD%D0%BE%D0%B2%D1%8B%D0%B5-%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D0%B8-pivot_longer-%D0%B8-pivot_wider/

Alexey Seleznev blog

R пакет tidyr и его новые функции pivot_longer и pivot_wider

Пакет tidyr входит в ядро одной из наиболее популярных библиотек на языке R — tidyverse.Основное назначение пакета — приведение данных к аккуратному виду. На Хабре уже есть публикаци…

источник

11:47пожаловаться #4

MP

Maksim Palko in R (язык программирования)

Добрый день. Помогите пожалуйста, выполнить задачу более быстрым способом. У меня есть таблица в которой для каждого пользователя указаны 14 пар X и Y. Я хочу посчитать для каждого пользователя lm модельку и сформировать табличку, где для каждого будет указана r.squared. То, как я это реализовал на малом кол-ве пользователей сильно долго работает на большом кол-ве. Помогите, пожалуйста, оптимизировать.

источник

13:34пожаловаться #5

ДВ

Дмитрий Володин... in R (язык программирования)

Maksim Palko

Добрый день. Помогите пожалуйста, выполнить задачу более быстрым способом. У меня есть таблица в которой для каждого пользователя указаны 14 пар X и Y. Я хочу посчитать для каждого пользователя lm модельку и сформировать табличку, где для каждого будет указана r.squared. То, как я это реализовал на малом кол-ве пользователей сильно долго работает на большом кол-ве. Помогите, пожалуйста, оптимизировать.

Почитайте в пакете purrr про nested датафреймы. В читшите на сайте рстудии по этому пакету как раз примеры применения линейной регрессии к разным элементам группы внутри датафрейма

источник

13:38пожаловаться #6

MP

Maksim Palko in R (язык программирования)

Дмитрий Володин

Почитайте в пакете purrr про nested датафреймы. В читшите на сайте рстудии по этому пакету как раз примеры применения линейной регрессии к разным элементам группы внутри датафрейма

Спасибо огромное, ушел читать

источник

13:39пожаловаться #7

EP

Ed P in R (язык программирования)

Марк

Это называется широкий формат. Вам нужно в длинный их перевести. Воспользоваться можно функцией pivot_longer из пакета tidyr.

Не совсем. Если нужная переменная действительно только одна, то можно и "rowwise" функциями обойтись. Я наизусть не помню, можно сделать примерно так:
1) через "rowwise" which узнать номер нужного столбца
2) сделать вектор с отраслями и указать название отрасли по номеру из шага (1)

источник

13:50пожаловаться #8

A

Andrey in R (язык программирования)

Ivan Struzhkov

Слушайте а кто знает .SD в деле сабсета по группам оптимизировать будут?

а то тут такое дело в data table

> system.time(
+ lc2[,.I[rank==max(rank)],client_code][])
   user  system elapsed 
  0.605   0.017   0.637 
> system.time(
+ lc2[,.SD[rank==max(rank)],client_code][])
Timing stopped at: 63.17 2.041 66.88

а оба эти варианта точно возвращают одно и то же? https://stackoverflow.com/questions/31852294/how-to-speed-up-subset-by-groups тут пишут, что уже все оптимизировано для таких простых случаев, как mean(), max() и пр.

Stack Overflow

How to speed up subset by groups

I used to achieve my data wrangling with dplyr, but some of the computations are "slow". In particular subset by groups, I read that dplyr is slow when there is a lot of groups and based on this

источник

14:09пожаловаться #9

AK

Alexey Khavylo in R (язык программирования)

Добрый день!
Подскажите, можно средствами data.table сделать аналогично этому?
dt %>% mutate(across(var1:var24, as.numeric))

источник

14:22пожаловаться #10

PU

Philipp Upravitelev in R (язык программирования)

Alexey Khavylo

Добрый день!
Подскажите, можно средствами data.table сделать аналогично этому?
dt %>% mutate(across(var1:var24, as.numeric))

что-то типа такого, если надо создать новую таблицу
dt[, lapply(.SD, as.numeric), .SDcols = var1:var24)]

источник

14:36пожаловаться #11

AK

Alexey Khavylo in R (язык программирования)

Спасибо!
А если нужно перезаписать те же колонки?

источник

14:36пожаловаться #12

PU

Philipp Upravitelev in R (язык программирования)

Alexey Khavylo

Спасибо!
А если нужно перезаписать те же колонки?

насколько я вижу, в твоем коде тоже перезаписи нет? я тайди не очень знаю

я бы вот так делал, вместо payments2, 1:3 и is.character проставь, что тебе нужно

tg_cols <- payments2[, names(.SD), .SDcols = 1:3] 
payments2[, (tg_cols) := lapply(.SD, is.character), .SDcols = tg_cols]

источник

14:41пожаловаться #13

AK

Alexey Khavylo in R (язык программирования)

Ага, спасибо. Буду пробовать.

источник

14:42пожаловаться #14

YB

Yurii Barvinchenko in R (язык программирования)

Коллеги, добрый день!

На основе привемра из книги "R для науки о данных" строю 2 варианта моделей по странам

library(modelr)
library(tidyverse)
library(gapminder)
gapminder

country_model <- function(df) {
lm(lifeExp ~ year, data = df)
}

country_model2 <- function(df) {
lm(lifeExp ~ year+gdpPercap, data = df)
}

by_country <- gapminder %>%
group_by(country, continent) %>%
nest() %>%
mutate(model1 = map(data, country_model),
model2 = map(data, country_model2))

Пока не понимаю как;
1. "красиво" передать данные этим моделям для предсказания?
2. если у меня не 2 модели, .а 20, как написать код, .который будет дальше использовать 1 лучшую модель по каждой стране?

источник

15:00пожаловаться #15

IS

Ivan Struzhkov in R (язык программирования)

Andrey

а оба эти варианта точно возвращают одно и то же? https://stackoverflow.com/questions/31852294/how-to-speed-up-subset-by-groups тут пишут, что уже все оптимизировано для таких простых случаев, как mean(), max() и пр.

Stack Overflow

How to speed up subset by groups

I used to achieve my data wrangling with dplyr, but some of the computations are "slow". In particular subset by groups, I read that dplyr is slow when there is a lot of groups and based on this

Ну не совсем, но затратная операция одинаковая.
Вот с идентичным возвратом

>  system.time(lc2[lc2[,.I[rank==max(rank)],client_code]$V1])
   user  system elapsed 
  0.737   0.028   0.779 
>  system.time(lc2[,.SD[rank==max(rank)],client_code][])
Timing stopped at: 33.32 0.743 34.57

источник

15:03пожаловаться #16

IS

Ivan Struzhkov in R (язык программирования)

@konhis Поделись плиз по возможности - есть простой способ делать сабсет по группам внутри чейнов data table без конструкции .SD? Она прям сильно жрет скорость

источник

15:10пожаловаться #17

AS

Alexander Semenov in R (язык программирования)

Ivan Struzhkov

@konhis Поделись плиз по возможности - есть простой способ делать сабсет по группам внутри чейнов data table без конструкции .SD? Она прям сильно жрет скорость

Мсье куда-то спешит? (с)

источник

15:14пожаловаться #18

PU

Philipp Upravitelev in R (язык программирования)

Ivan Struzhkov

@konhis Поделись плиз по возможности - есть простой способ делать сабсет по группам внутри чейнов data table без конструкции .SD? Она прям сильно жрет скорость

пока не понял проблему
*офф, смогу вечером посмотреть только

источник

15:23пожаловаться #19

IS

Ivan Struzhkov in R (язык программирования)

Alexander Semenov

Мсье куда-то спешит? (с)

Ну вот что, я зря что ли учил этот клингонский?

':='

Сотни мегов данных крутятся быстро даже на локальной машине, все дела. Но как только вознкает вопрос фильтрации по группам - скорость всего процентов на 30% быстрее диплюра

источник

15:25пожаловаться #20