Size: a a a

R (язык программирования)

2021 February 18

AS

Alexander Semenov in R (язык программирования)
Dm Kb
Ого, хороший такой набор))  чем то схожий с нашим ... вот только мы Postgres используем и похоже, что было бы правильнее перейти на кликхаус т.к. коллеги на скорость выгрузки жалуются((
Клик ни в коем случае нельзя ставить в детальный слой хранилища данных (если он у вас есть). Он хорош только для быстрой обработки логов с минимумом джойнов на словари, влезающие в оперативку.
источник

AS

Alexander Semenov in R (язык программирования)
В Яндекс.Такси детальный слой сделан на Greenplum как раз по этой причине.
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Alexander Semenov
Клик ни в коем случае нельзя ставить в детальный слой хранилища данных (если он у вас есть). Он хорош только для быстрой обработки логов с минимумом джойнов на словари, влезающие в оперативку.
+1. Джоины - это прямо слабое место клика. Особенно по большим таблицам
источник

AS

Alexander Semenov in R (язык программирования)
Ну так потому, что он для этого не предназначался.
источник

AS

Alexander Semenov in R (язык программирования)
Он заточен под архитектуру "звёздочка".
источник

AS

Alexander Semenov in R (язык программирования)
Т.е. адовая таблица фактов и небольшие словари с данными по измерениям.
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Alexander Semenov
Ну так потому, что он для этого не предназначался.
Это я в копилку аргументов "подумайте и не ведитесь на бенчмарки по скорости, есть нюансы")
источник

AS

Alexander Semenov in R (язык программирования)
Угу. Я б так дерзко не говорил, если бы не прослушал на прошлой недели лекции по дизайну DWH от главного архитектора Яндекс.Такси =)
источник

М

Михаил in R (язык программирования)
Кто может помочь сделать 4 Лабы на R, за плату
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Михаил
Кто может помочь сделать 4 Лабы на R, за плату
Обычно, исходя из моего опыта, тут осуждаются подобные запросы, однако чаще всего бесплатно отвечают на конкретно поставленные вопросы.
источник

a

aGricolaMZ in R (язык программирования)
Михаил
Кто может помочь сделать 4 Лабы на R, за плату
прочитайте правила группы
источник

DK

Dm Kb in R (язык программирования)
Alexander Semenov
Т.е. адовая таблица фактов и небольшие словари с данными по измерениям.
но подождите...  словари с фактами же нужно джойнить ... разве клик на это не годен или там есть нюансы?
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Dm Kb
но подождите...  словари с фактами же нужно джойнить ... разве клик на это не годен или там есть нюансы?
Джоин к большой маленькой таблицы (особенно in-memory словаря) - ок. Джоин большой таблицы фактов к большой таблице фактов - совсем-совсем не ок
источник

ДВ

Дмитрий Володин... in R (язык программирования)
это в принципе не ок везде, но в клике особенно
источник

DK

Dm Kb in R (язык программирования)
Alexander Semenov
Клик ни в коем случае нельзя ставить в детальный слой хранилища данных (если он у вас есть). Он хорош только для быстрой обработки логов с минимумом джойнов на словари, влезающие в оперативку.
не уверен, что осознаю про "детальные слой" ))) у нас три больших таблицы фактов и штук 15 таблиц-справочников ... очень примитивно все))
источник

AS

Alexander Semenov in R (язык программирования)
Dm Kb
не уверен, что осознаю про "детальные слой" ))) у нас три больших таблицы фактов и штук 15 таблиц-справочников ... очень примитивно все))
Архитектура DWH по Инмону.
источник

AS

Alexander Semenov in R (язык программирования)
Dm Kb
не уверен, что осознаю про "детальные слой" ))) у нас три больших таблицы фактов и штук 15 таблиц-справочников ... очень примитивно все))
Он есть только в хардкорных DWH, которые строились с нуля после анализа бизнеса, процессов и т.д.
источник

DK

Dm Kb in R (язык программирования)
Дмитрий Володин
Джоин к большой маленькой таблицы (особенно in-memory словаря) - ок. Джоин большой таблицы фактов к большой таблице фактов - совсем-совсем не ок
я понял в чем идею... в теории нам может тогда помочь, но нуно тестировать конечно
источник

AS

Alexander Semenov in R (язык программирования)
Dm Kb
не уверен, что осознаю про "детальные слой" ))) у нас три больших таблицы фактов и штук 15 таблиц-справочников ... очень примитивно все))
Грубо говоря, в детальном слое простраивается единая модель данных: нормализованная, без дублей и прочей грязи. Т.е. это эдакий "монолит", в котором корректно учтены все связи между всеми существующими источниками данных.
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Dm Kb
я понял в чем идею... в теории нам может тогда помочь, но нуно тестировать конечно
Тестируйте, благо опен сорс)
источник