Size: a a a

R (язык программирования)

2021 May 19

ЕК

Евгений Ковалев... in R (язык программирования)
Подскажите, пожалуйста, я хочу:

Проверить утверждение, что по субботам авторы пишут в основном днём, а по понедельникам — в основном вечером
И визуализировать это  в виде диаграммы, где X - часы, Y - количество статей (пример на фото)

Что у меня есть:

Датасет, в котором присутствует столбец published(дата и время публикации), где хранятся данные в виде строк в таком формате:
2008-01-01 18:19:00
Есть столбец domain, где название сайтов, у меня их 2 всего

Подскажите, пожалуйста, как мне это сделать с помощью ggplot
источник

ЕК

Евгений Ковалев... in R (язык программирования)
Я смог только вот так:

https://paste.ofcode.org/HS5WbTWViSACRgeQ2V2wv8
источник
2021 May 20

IS

Ilya Shutov in R (язык программирования)
Костя, привет. data.tree — хороший вариант. Все-таки, дерево, как никак.
Не знаю, сколько у тебя там строк и чем не устраивает.

Но могу поделиться своим вариантом. Подумал, пока в метро ехал.
Ключевой момент — вспоминаем сборку оглавления в LaTeX.

1. Готовим исходные данные.
Очевидно, что тут WDS, поэтому для ясности я добавил еще 4-ый элемент, дабы не было желания группировать по колонкам.
plain_df <- tribble(
 ~element, ~sublvl, ~value,
 "el1",    "obj1",  "val1",  
 "el1",    "obj2",  "val1",
 "el2",    "obj1",  "val1",
 "el2",    "obj1",  "val2",
 "el3",    "obj1",  "val1",
 "el1",    "obj1",  "val3"
)

2. Непосредственно генерация (~ 7 значимых строк)
# формируем счетчики заголовков (TOC_counter)
toc_dt <- plain_df %>%
 rename(val1 = element, val2 = sublvl, val3 = value) %>%
 as.data.table() %>%
 .[, idx := .I] %>%
 .[, cnt1 := rleid(val1)] %>%
 .[, cnt2 := rleid(val2), by = cnt1] %>%
 .[, cnt3 := rowidv(val3), by = .(cnt1, cnt2)] %>%
 # формируем все возможные комбинации оглавлений
 .[, {list(toc_num = c(cnt1,
                       paste(cnt1, cnt2, sep = "."),
                       paste(cnt1, cnt2, cnt3, sep = ".")),
           toc_name = c(val1,
                        paste(val1, val2, sep = "."),
                        paste(val1, val2, val3, sep = ".")))}, by = idx] %>%
 # оставляем только первое вхождение для каждого элемента оглавления
 .[, head(.SD, 1), by = toc_num]
источник

IS

Ilya Shutov in R (язык программирования)
Получаем такую картину. Оно? :)
источник

K

Konstantin in R (язык программирования)
Спасибо, Илья! Да суть такая.
источник

AK

Anton Kovalev in R (язык программирования)
Добрый день!
Кто-нибудь сталкивался с подобным?!
источник

AK

Anton Kovalev in R (язык программирования)
Переслано от Anton Kovalev
> install.packages('albersusa')
Устанавливаю пакет в ‘/home/qwaldo/R/x86_64-pc-linux-gnu-library/4.1’
(потому что ‘lib’ не определено)
Warning in install.packages :
 package ‘albersusa’ is not available for this version of R

> version
              _                          
platform       x86_64-pc-linux-gnu        
arch           x86_64                      
os             linux-gnu                  
system         x86_64, linux-gnu          
status                                    
major          4                          
minor          1.0                        
year           2021                        
month          05                          
day            18                          
svn rev        80317                      
language       R                          
version.string R version 4.1.0 (2021-05-18)
nickname       Camp Pontanezen
источник

AK

Anton Kovalev in R (язык программирования)
Переслано от Anton Kovalev
Всё болит! Ничего не помогает!(((
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Вернитесь на версию 3.6 какую-нибудь, если очень нужен это пакет
источник

AK

Anton Kovalev in R (язык программирования)
Я думал, что надо наоборот - более новый!)) Обновил до последнего.
источник

EP

Ed P in R (язык программирования)
из исходников же можно установить. А так посмотрите на гитхабе пакет - там последние обновления были почти полтора года назад.
источник

YK

Yulia Kuzmina in R (язык программирования)
всем привет, не могу разобраться с простой задачей: мне нужно проверить что в строках встречаются похожие последовательности букв:

a = c(‘my home’, ‘this flower’, ’warm heart’)
b = c(‘home empty’, ‘dog’, ‘war’)

в этом примере при сравнении a и b я хочу видеть в выдаче:
4 0 3

как это сделать? вроде в stringi и stringr не могу ничего такого найти
источник

ER

Elvin Rustamov in R (язык программирования)
Здравствуйте. У меня такая проблема. Старый код который я когда-то писал,местами стал менее яркий. Использую тему Vibrant ink. Смена темы не решила проблему
источник

IS

Ilya Shutov in R (язык программирования)
странная постановка вопроса, кажется, что ищете что-то иное, чем 4 0 3.
может всю задачу целиком озвучите?
есть методики поиска расстояний между строк.
источник

АР

Александр Райков... in R (язык программирования)
Левенштейн?
источник

IS

Ilya Shutov in R (язык программирования)
источник

IS

Ilya Shutov in R (язык программирования)
это мы не трогаем генетические алгоритмы с biodoc по выравниванию цепочек — там отдельный мир.
источник

YK

Yulia Kuzmina in R (язык программирования)
спасибо, попробую! задача к сожалению именно такая — грубо говоря, меня интересует что внутри строк могут быть слова с одинаковыми корнями, а строки могут значительно отличаться по количеству слов и просто stringdist не сработает
источник

NK

Nikita Karlushin in R (язык программирования)
а если вторую строку сначала привести средствами NLP как раз к корням?
источник

IS

Ilya Shutov in R (язык программирования)
Юля, сделайте формальную постановку задачи с примерами данных.
Сейчас каждый читатель понимает по-своему.
Вариантов реализации масса, зависит от реальной цели.

Если помощь действительно нужна
источник