Size: a a a

R (язык программирования)

2020 October 27

АК

Артём Клевцов... in R (язык программирования)
Данные агрегированы, в результате их в дашборд отдаётся не много (не более тысячи строк). Само приложение рядом. Интересует именно быстродействие БД и возможность выполнять множество параллельных запросов с агрегацией без потери скорости.
источник

JS

Jury Sergeev in R (язык программирования)
КХ параллелен, хватает все что есть на сервере
источник

JS

Jury Sergeev in R (язык программирования)
фильтрация даже по raw-тексту - быстрая, но надо партиционирование сделать оптимальнее именно под выборку
источник

АК

Артём Клевцов... in R (язык программирования)
Постгря сильно проседает при нагрузочном тестирование бэкенда (100 параллельных запроса), но я её ещё особо не тюнил под это дело.
источник

JS

Jury Sergeev in R (язык программирования)
а еще никто не отменял шардирование - и тогда параллельные запросы будут к разным физ. шардам
источник

JS

Jury Sergeev in R (язык программирования)
ну и диски надо быстрые, если много массивных параллельных чтений
источник

AS

Alexander Semenov in R (язык программирования)
Philipp Upravitelev
к слову, я не могу сказать, что мне как-то очень часто нужны оконные функции
Мне вот тоже кажется, что они по большей части нужны для того, чтобы кандидатов на собеседованиях отсеивать =)
источник

AS

Alexander Semenov in R (язык программирования)
Артём Клевцов
Это на КХ? Я думал, оно как раз заточен на то, чтобы быстро фильтровать и агрегировать, что для дашбордов самое оно.
Да. У нас там событий адовые миллионы и данные к КХ хранятся по сессиям. Может поэтому.
источник

JS

Jury Sergeev in R (язык программирования)
Alexander Semenov
Да. У нас там событий адовые миллионы и данные к КХ хранятся по сессиям. Может поэтому.
очень даже запросто, возможно надо мельче делать партиции, зависит от...
источник

АК

Артём Клевцов... in R (язык программирования)
Jury Sergeev
очень даже запросто, возможно надо мельче делать партиции, зависит от...
Какая логика разбиения должна быть?
источник

JS

Jury Sergeev in R (язык программирования)
Артём Клевцов
Какая логика разбиения должна быть?
а это по потребителям данных смотреть, какие части данных им нужны, и от этого плясать, ну например если за неделю данные берут - ну бьем по суткам, например, ну и далее вглубь идем
источник

JS

Jury Sergeev in R (язык программирования)
т.е. представить, как оно будет выбираться с диска, что пойдет первым, что вторым с точки зрения увеличения детализации
источник

JS

Jury Sergeev in R (язык программирования)
конечно, неприятно что могут быть сильно разные запросы и мега-оптимально для всех не сделать, но если что уж - можно и еще таблицу-копию сделать, с другим партиционированием, грубо, но сработает... но места много надо, да
источник

ЭА

Эдик Амперян... in R (язык программирования)
Артём Клевцов
Себя он не любит 😁 Надо просто пересилить чуток, а потом уже не оттащишь.
Чтобы пересилить - есть полезный пост:
https://atrebas.github.io/post/2019-03-03-datatable-dplyr

По крайней мере, мне зашло недавно
источник

JS

Jury Sergeev in R (язык программирования)
Эдик Амперян
Чтобы пересилить - есть полезный пост:
https://atrebas.github.io/post/2019-03-03-datatable-dplyr

По крайней мере, мне зашло недавно
полезная ссылка какая, чую - будет еще попытка перейти на data.table )
источник

ЭА

Эдик Амперян... in R (язык программирования)
Тот факт, что я пока в DT "ковыляю", немного компенсировался мгновенностью операций над небольшим датасетом (300К строк, 140 переменных)
источник

JS

Jury Sergeev in R (язык программирования)
а мне пока мешает высокая скорость быстрого-наспех-анализа через dplyr, тут он хорош (пока не силен в data.table), просто не думаешь - сразу получаешь нужное... правда, долго ждать - если данных много )
источник

AS

Alexander Semenov in R (язык программирования)
Хреновые пользователишки попались Гадли. Человек старается, а в ответ...
источник

AS

Alexander Semenov in R (язык программирования)
Это я решил поинтересоваться, что за херню мне теперь стал выдавать dplyr: "summarise() ungrouping output (override with .groups argument)"
источник

AS

Alexander Semenov in R (язык программирования)
Jury Sergeev
а мне пока мешает высокая скорость быстрого-наспех-анализа через dplyr, тут он хорош (пока не силен в data.table), просто не думаешь - сразу получаешь нужное... правда, долго ждать - если данных много )
+100 к "не думаешь". Не до этого как-то.
источник