Size: a a a

R language and Statistical data analysis

2019 October 31

PU

Philipp Upravitelev in R language and Statistical data analysis
Edgar Lakshin
также пробовал через ID, затронутый здесь
https://github.com/r-dbi/odbc/issues/214
но тогда появляется ошибка с кавычками, т.к. наименование схемы и наименование таблицы в разных кавычках получается
вот, смотрите, я в postgre в public записываю:
> dbWriteTable(conn = con1_tw, name = c('public', 'test_tbl'), value = test)
[1] TRUE
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
правда у меня DBI + RPostgreSQL
источник

e

este in R language and Statistical data analysis
Коллеги, кто алабая съел на визуализации, как по-русски в отчёте назвать диаграмму Treemap
источник

e

este in R language and Statistical data analysis
Даже у фашистов есть свое название - Kacheldiagramm
источник

A

A in R language and Statistical data analysis
Древовидная или диаграмма 'дерево'
источник

А[

Александр [capsula] in R language and Statistical data analysis
источник

ВL

Владислав Lazycat in R language and Statistical data analysis
AlabaiEater
источник

e

este in R language and Statistical data analysis
Благодарствую
источник

IM

Igor Makarov in R language and Statistical data analysis
Есть колонка в датафрейме примерно с таким содержанием (на самом деле количество категорий идущих подряд не равно)
data <- data.frame(Activity = rep(rep(x = c("lookout", "action", "sleep"), each = 10), 5))
head(data, 8)

Activity
1  lookout
2  lookout
3  lookout
4  lookout
5  lookout
6  lookout
7   action
8   action


Я бы хотел напротив каждой категории написать какая она по счёту в блоке без смены на другую категорию, то есть все первые 6 lookout будет с единицей и action тоже, а когда дойдёт до новых lookout и action, то чтобы была цифра должна быть 2 и так далее:
Activity order
1   lookout     1
2   lookout     1
3   lookout     1
4   lookout     1
5   lookout     1
6   lookout     1
7    action     1
8    action     1
9    action     1
10   action     1
11   action     1
12   action     1
13    sleep     1
14    sleep     1
15    sleep     1
16    sleep     1
17    sleep     1
18    sleep     1
19  lookout     2
20  lookout     2
21  lookout     2
22  lookout     2
23  lookout     2
24  lookout     2
25   action     2
26   action     2
27   action     2
28   action     2
29   action     2
30   action     2


Я написал функцию с for, но мне она не нравится. Можно ли как-то иначе сделать?
set.numerator <- function(x) {
 result <- vector(mode = "integer", length = length(x))
 stage_numbers <- vector(mode = "integer", length = n_distinct(x))
 names(stage_numbers) <- unique(x)
 
 current.stage <- "undefined"
 n_stage <- 0
 
 for (idx in seq(x)) {
   row.stage <- x[idx]
   
   if(current.stage != row.stage) {
     current.stage <- row.stage
     stage_numbers[row.stage] = stage_numbers[row.stage] + 1
     n_stage <- stage_numbers[row.stage]
   }
   
   result[idx] <- n_stage
   
 }
 
 return(result)
   
}
источник

АК

Артём Клевцов in R language and Statistical data analysis
Igor Makarov
Есть колонка в датафрейме примерно с таким содержанием (на самом деле количество категорий идущих подряд не равно)
data <- data.frame(Activity = rep(rep(x = c("lookout", "action", "sleep"), each = 10), 5))
head(data, 8)

Activity
1  lookout
2  lookout
3  lookout
4  lookout
5  lookout
6  lookout
7   action
8   action


Я бы хотел напротив каждой категории написать какая она по счёту в блоке без смены на другую категорию, то есть все первые 6 lookout будет с единицей и action тоже, а когда дойдёт до новых lookout и action, то чтобы была цифра должна быть 2 и так далее:
Activity order
1   lookout     1
2   lookout     1
3   lookout     1
4   lookout     1
5   lookout     1
6   lookout     1
7    action     1
8    action     1
9    action     1
10   action     1
11   action     1
12   action     1
13    sleep     1
14    sleep     1
15    sleep     1
16    sleep     1
17    sleep     1
18    sleep     1
19  lookout     2
20  lookout     2
21  lookout     2
22  lookout     2
23  lookout     2
24  lookout     2
25   action     2
26   action     2
27   action     2
28   action     2
29   action     2
30   action     2


Я написал функцию с for, но мне она не нравится. Можно ли как-то иначе сделать?
set.numerator <- function(x) {
 result <- vector(mode = "integer", length = length(x))
 stage_numbers <- vector(mode = "integer", length = n_distinct(x))
 names(stage_numbers) <- unique(x)
 
 current.stage <- "undefined"
 n_stage <- 0
 
 for (idx in seq(x)) {
   row.stage <- x[idx]
   
   if(current.stage != row.stage) {
     current.stage <- row.stage
     stage_numbers[row.stage] = stage_numbers[row.stage] + 1
     n_stage <- stage_numbers[row.stage]
   }
   
   result[idx] <- n_stage
   
 }
 
 return(result)
   
}
#RTFM ?data.table::rowid, ?data.table::rleid.
источник

👁

👁 in R language and Statistical data analysis
сервер отдает строку в таком виде: &#1080;&#1083;&#1080;
это слово "или", онлайн декодер говорит что исходная кодировка HTML-Entities, а конечная UTF-8
я наверно уже все способы перепробовал, но не знаю как средствами R переводить, может кто-нибудь сталкивался с такой кодировкой?
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
потыкайте urldecode
источник

FO

FORTRAN ONE LOVE in R language and Statistical data analysis
👁
сервер отдает строку в таком виде: &#1080;&#1083;&#1080;
это слово "или", онлайн декодер говорит что исходная кодировка HTML-Entities, а конечная UTF-8
я наверно уже все способы перепробовал, но не знаю как средствами R переводить, может кто-нибудь сталкивался с такой кодировкой?
Самое ужасное, что я прочитал это без urldecode'ра
источник

FO

FORTRAN ONE LOVE in R language and Statistical data analysis
👁
сервер отдает строку в таком виде: &#1080;&#1083;&#1080;
это слово "или", онлайн декодер говорит что исходная кодировка HTML-Entities, а конечная UTF-8
я наверно уже все способы перепробовал, но не знаю как средствами R переводить, может кто-нибудь сталкивался с такой кодировкой?
1072 это вроде а
источник

FO

FORTRAN ONE LOVE in R language and Statistical data analysis
Потом 32 кода это нижнее начернтпние русских букв (кроме ё), а затем следующие 32 кода это заглавные. Если я правильно помню таблицу
источник
2019 November 01

FO

FORTRAN ONE LOVE in R language and Statistical data analysis
Доброе утро, товарищи!
Можно ли как-нибудь на 2D графике, строящемся с помощью ggplot2, geom_rastep рисовать дополнительно изолинию, сооветствущую некоторому значению?
источник

a

aGricolaMZ in R language and Statistical data analysis
думаю, могут. Нужно показывать свои попытки
источник

FO

FORTRAN ONE LOVE in R language and Statistical data analysis
FORTRAN ONE LOVE
Доброе утро, товарищи!
Можно ли как-нибудь на 2D графике, строящемся с помощью ggplot2, geom_rastep рисовать дополнительно изолинию, сооветствущую некоторому значению?
Нужна такая штука:
stat_contour(breaks=c(0),color="white", size=0.25)

Оказывается, изолинии на английском тоже изолинии)
источник

FO

FORTRAN ONE LOVE in R language and Statistical data analysis
Ну и не забыть поставить нужный z в aes()
источник

JS

Jury Sergeev in R language and Statistical data analysis
Всем доброго дня!

Думаю думу над такой задачей:

есть записи о покупках клиентов (ClientID), эти покупки собраны в заказы (OrderID), в заказах записи - товары (ProductID)
хотел сделать факторый анализ, но получил от data.table вот такое

data.table::dcast(
 data = data_source[, .(OrderID, ProductID, ProductCnt)],
 formula = OrderID ~ ProductID,
 value.var = "ProductCnt"
)

Ошибка в CJ(1:354851, 1:51083) :
 Cross product of elements provided to CJ() would result in 18126853633 rows which exceeds .Machine$integer.max == 2147483647

да, данных много, порядка 10 миллионов записей (1 запись - 1 товар в заказе), уникальных ProductID ~ 50 тыс.

по идее можно сделать saprseMatrix, и сделать факторый анализ по ней, но я таких библиотек не нашел


Как думаете, в каком направлении стоит двигаться???
источник