у меня в одной из работ была специфичная логика - мы clickhouse использовали как хранилище данных, куда заливали уже собранные и почищенные данные от пользователей в первую очередь потому что постгря не справлялась с такими объемами (по словам нашего дба, как там реально было - я хз)
у меня в одной из работ была специфичная логика - мы clickhouse использовали как хранилище данных, куда заливали уже собранные и почищенные данные от пользователей в первую очередь потому что постгря не справлялась с такими объемами (по словам нашего дба, как там реально было - я хз)
КХ очень радует. Особенно тем, что работа там похожа на работу с таблицами в R. Стандартный подход из реляционных СУБД не очень-то работает (стоит сразу забыть про многократные джойны, а оконных функций так вообще нет). Переезжать с SQL сервера было сначала непривычно, а теперь даже не знаю, смогу ли не плеваться, если придётся снова в tsql писать. Настолько удобно и шустро.
КХ очень радует. Особенно тем, что работа там похожа на работу с таблицами в R. Стандартный подход из реляционных СУБД не очень-то работает (стоит сразу забыть про многократные джойны, а оконных функций так вообще нет). Переезжать с SQL сервера было сначала непривычно, а теперь даже не знаю, смогу ли не плеваться, если придётся снова в tsql писать. Настолько удобно и шустро.
Это на КХ? Я думал, оно как раз заточен на то, чтобы быстро фильтровать и агрегировать, что для дашбордов самое оно.
смотря сколько данных, все равно у меня бывали запросы, которые по несколько минут работали, в терминальных случаях до часа-двух доходило но там и агрегаты, и джойны, и фильтрация по json-строке, и импорт в R были
смотря сколько данных, все равно у меня бывали запросы, которые по несколько минут работали, в терминальных случаях до часа-двух доходило но там и агрегаты, и джойны, и фильтрация по json-строке, и импорт в R были
в КХ есть многое, что бы эти вещи делать в потоке, а забирать уже готовое из материализованных представлений, например... в общем, оптимизация все равно нужна
в КХ есть многое, что бы эти вещи делать в потоке, а забирать уже готовое из материализованных представлений, например... в общем, оптимизация все равно нужна
это был разовый запрос на выгрузку данных, не для борды, естественно. делать под него инфраструктуру в виде агрегатов и вьюх - слишком дорого по времени, имхо
это был разовый запрос на выгрузку данных, не для борды, естественно. делать под него инфраструктуру в виде агрегатов и вьюх - слишком дорого по времени, имхо
Кейс такой. Строк где-то 5-10 млн строк. Есть 3-5 столбцов для фильтрации с текстовыми значениями (или UUID) и датой. Задача слепить данные для дашборда: фильтрация + агрегация. Сейчас использует постгря с партиционированием и колоночным хранилищем для самой здоровой партиции. Запросы отадёт за 3-5 секунд.