Size: a a a

R (язык программирования)

2021 February 14

S

Stan in R (язык программирования)
Dm Kb
Попробуйте что-то вроде этого:
tibble(str = c("71.12.7 Кадастровая деятельность.", "71.12 Кадастровая деятельность.", "71 Кадастровая деятельность.")) %>%
 mutate(okved = str_extract(str, "^\\d{1,2}\\.\\d{1,2}\\.\\d{1,2}|^\\d{1,2}\\.\\d{1,2}|^\\d{1,2}"),
        name =  str_extract(str, "(?<=\\d)\\s.+") %>% str_trim())
Почти сработало. Спасибо!
источник

АК

Артём Клевцов... in R (язык программирования)
Stan
Привет! С утра занимаюсь крайне странным занятием. Есть 13к строк, которые имеют описание ОКВЭДа вида 71.12.7 Кадастровая деятельность. Пытаюсь с помощью stringr отделить все цифры от слов. Причем у меня может быть как ##.##.#, так и ##.# или ##.##. Как правильно тогда паттерн стоит написать?

Исходный пример кода: D <- str_split_fixed(Source_2$OKVED, "[:digit:].[:digit:].[:digit:] ", 2)
_fixed не для регулярок. В доках описано что для чего применять, почитай.
источник

АК

Артём Клевцов... in R (язык программирования)
Stan
Привет! С утра занимаюсь крайне странным занятием. Есть 13к строк, которые имеют описание ОКВЭДа вида 71.12.7 Кадастровая деятельность. Пытаюсь с помощью stringr отделить все цифры от слов. Причем у меня может быть как ##.##.#, так и ##.# или ##.##. Как правильно тогда паттерн стоит написать?

Исходный пример кода: D <- str_split_fixed(Source_2$OKVED, "[:digit:].[:digit:].[:digit:] ", 2)
> sub("^([0-9.]+).*", "\\1", "71.12.7 Кадастровая деятельность")
[1] "71.12.7"
источник

EP

Ed P in R (язык программирования)
Stan
Привет! С утра занимаюсь крайне странным занятием. Есть 13к строк, которые имеют описание ОКВЭДа вида 71.12.7 Кадастровая деятельность. Пытаюсь с помощью stringr отделить все цифры от слов. Причем у меня может быть как ##.##.#, так и ##.# или ##.##. Как правильно тогда паттерн стоит написать?

Исходный пример кода: D <- str_split_fixed(Source_2$OKVED, "[:digit:].[:digit:].[:digit:] ", 2)
по первому пробелу же надо делить через обычный word
источник

S

Stan in R (язык программирования)
Ed P
по первому пробелу же надо делить через обычный word
это привычный вариант
источник

S

Stan in R (язык программирования)
хотел через R
источник

EP

Ed P in R (язык программирования)
ну так через R и делить по первому пробелу
источник

EP

Ed P in R (язык программирования)
функция word, в пакете stringr вроде
источник

EP

Ed P in R (язык программирования)
когда первое слово в виде кода ОКВЭД есть, второе действие - сабстринг исходной строки по ОКВЭДу + 1 символ (чтобы перый пробел учесть). Это даст вторую часть только с текстовым названием.

Т.е. можно, конечно, через регулярки это делать и все такое. Но если регулярки наизусть не выучены, можно в 2-3 шага более простыми функциями сделать
источник
2021 February 15

PU

Philipp Upravitelev in R (язык программирования)
смотрите, какой пакет есть, для простой организации нескольких ggplot-графиков на странице
https://gotellilab.github.io/GotelliLabMeetingHacks/NickGotelli/ggplotPatchwork.html
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Philipp Upravitelev
смотрите, какой пакет есть, для простой организации нескольких ggplot-графиков на странице
https://gotellilab.github.io/GotelliLabMeetingHacks/NickGotelli/ggplotPatchwork.html
Ооо, он автоматически ещё уравнивает шкалы.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Забрал, спасибо.
источник

PU

Philipp Upravitelev in R (язык программирования)
вот я и говорю, симпатичный, ага :)
источник

AS

Alexander Semenov in R (язык программирования)
Philipp Upravitelev
я чот даже не знаю, как реагировать на такое @@
Мне аж интересно стало
источник

PU

Philipp Upravitelev in R (язык программирования)
Alexander Semenov
Мне аж интересно стало
там один пассажир спрашивал, нет ли желающих помочь со взломом инстаграма
источник

IY

Igor Yegin in R (язык программирования)
Eкатерина
Здравствуйте. Есть большой набор данных и есть подозрение, что в нем присутствуют повторяющиеся строки. В датасете речь о вещах, которые прибывают в страну: что-то люди просто оформляют на таможне для себя, а что-то потом перепродается. Если дальнейшая перепродажа, то по идее данные о вещи в датасете будут дублироваться, так как данные в этот же датасет заносятся при дальнейшей покупке этой вещи.  Проблема в том, что мне нужно определить уникальные вещи, для дальнейшего анализа,а у них нет никакого постоянного id.
я бы хотела определить уникальные вещи по определенным колонкам. Т.е. если я просто сделаю distinct или duplicated, то ничего не будет, потому что вещь проходит разные этапы регистрации и следовательно не все колонки одинаковы. Какую мне нужно использовать функцию, чтобы увидеть повторяющиеся строки , но по определенным столбцам?
Если вы точно знаете, какие колонки повторяются или не повторяются, то сделать subset() для датафрейма, а потом по нему убрать дубли
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Philipp Upravitelev
там один пассажир спрашивал, нет ли желающих помочь со взломом инстаграма
С помощью R?
источник

PU

Philipp Upravitelev in R (язык программирования)
Евгений Томилов
С помощью R?
без понятия, это не уточнялось
источник

ЕТ

Евгений Томилов... in R (язык программирования)
источник

IY

Igor Yakubovskiy in R (язык программирования)
Philipp Upravitelev
смотрите, какой пакет есть, для простой организации нескольких ggplot-графиков на странице
https://gotellilab.github.io/GotelliLabMeetingHacks/NickGotelli/ggplotPatchwork.html
Огонь!
источник