Телеграмм чат группы rlang

#Если структура не меняется и есть фигурные скобки:
#разделение по customerAction
a <- gregexpr("<customerAction>(.*?)</customerAction>",text)
b <- unlist(regmatches(text,a))

#разделение по фигурным скобкам
c <- gregexpr("\\{(.*?)\\}",b)
d <- unlist(regmatches(b,c))
#удаление скобок
d <- gsub("\\{|\\}","",d)

#таблица
dim(d) <- c(15,length(d)/15)
d <- t(d)
d <- as.data.table(d)

#Если фигурных скобок нету, то, зная структуру, можно выделить все идентификаторы по порядку и далее формировать из них таблицу
a <- gregexpr("<customerAction>(.*?)</customerAction>",text)
b <- unlist(regmatches(text,a))

c1 <- gregexpr("<mindboxId>(.*?)</mindboxId>",b)
d1 <- unlist(regmatches(b,c1))
d1 <- gsub("<mindboxId>|</mindboxId>","",d1)

c2 <- gregexpr("<transactionId>(.*?)</transactionId>",b)
d2 <- unlist(regmatches(b,c2))
d2 <- gsub("<transactionId>|</transactionId>","",d2)
#и так далее

dim(d1) <- c(2,length(d1)/2)
d1 <- t(d1)
d1 <- as.data.table(d1)

dim(d2) <- c(1,length(d2)/1)
d2 <- t(d2)
d2 <- as.data.table(d2)

d <- cbind(d1,d2)

источник

01:40пожаловаться #3

ВК

Валерий К in R language and Statistical data analysis

👁

#Если структура не меняется и есть фигурные скобки:
#разделение по customerAction
a <- gregexpr("<customerAction>(.*?)</customerAction>",text)
b <- unlist(regmatches(text,a))

#разделение по фигурным скобкам
c <- gregexpr("\\{(.*?)\\}",b)
d <- unlist(regmatches(b,c))
#удаление скобок
d <- gsub("\\{|\\}","",d)

#таблица
dim(d) <- c(15,length(d)/15)
d <- t(d)
d <- as.data.table(d)

#Если фигурных скобок нету, то, зная структуру, можно выделить все идентификаторы по порядку и далее формировать из них таблицу
a <- gregexpr("<customerAction>(.*?)</customerAction>",text)
b <- unlist(regmatches(text,a))

c1 <- gregexpr("<mindboxId>(.*?)</mindboxId>",b)
d1 <- unlist(regmatches(b,c1))
d1 <- gsub("<mindboxId>|</mindboxId>","",d1)

c2 <- gregexpr("<transactionId>(.*?)</transactionId>",b)
d2 <- unlist(regmatches(b,c2))
d2 <- gsub("<transactionId>|</transactionId>","",d2)
#и так далее

dim(d1) <- c(2,length(d1)/2)
d1 <- t(d1)
d1 <- as.data.table(d1)

dim(d2) <- c(1,length(d2)/1)
d2 <- t(d2)
d2 <- as.data.table(d2)

d <- cbind(d1,d2)

Фигурных скобок нет. Это так в описании значения указали.
На b <- unlist(regmatches(text,a)) выдает ошибку:
Error in regmatches(get_answer, a) :
‘x’ и ‘m’ должны иметь одинаковую длину

источник

10:16пожаловаться #4

👁

👁 in R language and Statistical data analysis

Валерий К

Не знаю почему так. На всякий случай напишу что у text класс character и 1 элемент

источник

10:43пожаловаться #5

Philipp Upravitelev in R language and Statistical data analysis

а xml2 не зашел?

источник

10:52пожаловаться #6

Philipp Upravitelev in R language and Statistical data analysis

у меня как-то так на коленке получилось, общая логика вроде как прослеживается
имейте ввиду, я до этого с парсингом xml не сталкивался, так что может быть очень костыльно

> library(xml2)
> tmp <- read_xml('~/Загрузки/template.xml')
> sec <- xml_children(xml_children(tmp))
> cast_actions <- xml_find_all(sec, '//customerActions')
> el1 <- xml_children(cast_actions)[[1]]
> 
> result <- data.frame(
+   ids = xml_find_first(el1, '//customerAction/ids/mindboxId') %>% xml_text(),
+   transactionId = xml_find_first(el1, '//customerAction/ids/transactionId') %>% xml_text(),
+   systemName = xml_find_first(el1, '//customerAction/actionTemplate/systemName') %>% xml_text())
> 
> for (i in seq_len(length(result))) {
+   result[, i] <- gsub('\\{|\\}', '', result[, i])
+ }
> 
> result
                                 ids                  transactionId                                  systemName
1 Идентификатор действия в Майндбокс Внешний идентификатор действия Системное имя шаблона действия в Майндбоксе

источник

11:11пожаловаться #7

ВК

Валерий К in R language and Statistical data analysis

Philipp Upravitelev

> library(xml2)
> tmp <- read_xml('~/Загрузки/template.xml')
> sec <- xml_children(xml_children(tmp))
> cast_actions <- xml_find_all(sec, '//customerActions')
> el1 <- xml_children(cast_actions)[[1]]
> 
> result <- data.frame(
+   ids = xml_find_first(el1, '//customerAction/ids/mindboxId') %>% xml_text(),
+   transactionId = xml_find_first(el1, '//customerAction/ids/transactionId') %>% xml_text(),
+   systemName = xml_find_first(el1, '//customerAction/actionTemplate/systemName') %>% xml_text())
> 
> for (i in seq_len(length(result))) {
+   result[, i] <- gsub('\\{|\\}', '', result[, i])
+ }
> 
> result
                                 ids                  transactionId                                  systemName
1 Идентификатор действия в Майндбокс Внешний идентификатор действия Системное имя шаблона действия в Майндбоксе

Так почему-то только одна строка и то частично распарсилась.

источник

11:20пожаловаться #8

Philipp Upravitelev in R language and Statistical data analysis

эм. потому что код написан для дочерних трех элементов одной строки, а не для всех?
мне кажется, я показал принцип, и он вроде рабочий. расписывать полный парсер у меня нет времени.

источник

11:22пожаловаться #9

👁

👁 in R language and Statistical data analysis

👁

Не знаю почему так. На всякий случай напишу что у text класс character и 1 элемент

нашел функцию для чтения файла в такой формат

library(readr)
text <- read_file("template.xml")

источник

11:45пожаловаться #10

Philipp Upravitelev in R language and Statistical data analysis

spss_example.sav

(859 байт)

кстати, раз уж речь пошла про парсинг
я правильно понимаю, что haven вот такой файл не очень хорошо жрет и его лучше импортировать через foreign::read.spss?

источник

11:51пожаловаться #11

Philipp Upravitelev in R language and Statistical data analysis

у него вот такая структура

источник

11:52пожаловаться #12

ГД

Григорий Демин in R language and Statistical data analysis

Philipp Upravitelev

spss_example.sav

(859 байт)

А в чем проблема? У меня нормально читает

источник

12:04пожаловаться #13

Philipp Upravitelev in R language and Statistical data analysis

в табличку хреново конвертируется

> library(haven)
> path <- './data/spss_example.sav'
> spss_data <- read_sav(path)
> spss_data
Ошибка в `levels<-`(`*tmp*`, value = as.character(levels)) :
  factor level [4] is duplicated

источник

12:06пожаловаться #14

Philipp Upravitelev in R language and Statistical data analysis

приходится вот так вот извращаться

> spss_data_df <- as.data.frame(spss_data, stringAsFactor = FALSE)
> spss_data_df
  var1 var2 var3
1    3    4    1
2    4    5   NA
3    3    5   99
4    3    5    1
5    4    4    4
6    3    5  999

источник

12:07пожаловаться #15

Philipp Upravitelev in R language and Statistical data analysis

ну и в целом у haven, кажется, меньше настроек для импорта, чем у foreign
поэтому и вопрос - чем же он так хорош (ну, кроме того, что haven читает еще и стату, и пишет и спсс, и стату)

источник

12:08пожаловаться #16

ГД

Григорий Демин in R language and Statistical data analysis

субъективно haven побыстрее и строковые перемененные с большим количеством знаков в спссных файлах не разбивает на несколько столбцов.

источник

12:13пожаловаться #17

ГД

Григорий Демин in R language and Statistical data analysis

Philipp Upravitelev

в табличку хреново конвертируется

> library(haven)
> path <- './data/spss_example.sav'
> spss_data <- read_sav(path)
> spss_data
Ошибка в `levels<-`(`*tmp*`, value = as.character(levels)) :
  factor level [4] is duplicated

Странно, у меня не пытается в фактор переделать

источник

12:14пожаловаться #18

ГД

Григорий Демин in R language and Statistical data analysis

haven версии 2.2.0

источник

12:14пожаловаться #19

Philipp Upravitelev in R language and Statistical data analysis

хм. у меня haven_2.1.1. сейчас попробую обновить

источник

12:15пожаловаться #20