Телеграмм чат группы clickhouse

я бы на самом деле не заморачивался с таким условием в ORDER BY и сделал бы через UNION двух таблиц с TTL

не совсем понял суть идеи

Evgeny Makarov in ClickHouse не тормозит

11:07пожаловаться #1

EM

Eugene

О мудрейшие. Доступна ли в кх функциональность по написанию своих функций, точки расширения (плагины) и подобное?

В данный момент только путём написания функций прямо в исходниках и сборки сервера с нужной функцией. Хотя в некоторых выступлениях разработчики обсуждали что в перспективе, такое может быть появится через какие нибудь скриптовые языки. А какую функцию вы хотели написать ?

11:08пожаловаться #2

DT

Dmitry Koreckiy

не совсем понял суть идеи

будет две таблицы, одна с агрегацией по месяцам, другая по дням(либо использовать базовую твою таблицу)
данные старше месяца будут браться из первой таблицы, данные младше из второй.

11:08пожаловаться #3

D

а ttl для случая если я буду выносить данные за последние два месяц в отдельную таблицу как я понял

11:13пожаловаться #4

D

но даже с таким подходом придется использовать runningAccumulate

11:14пожаловаться #5

DT

Dmitry Koreckiy

но даже с таким подходом придется использовать runningAccumulate

можно через массивы :)

11:14пожаловаться #6

E

Evgeny Makarov

В данный момент только путём написания функций прямо в исходниках и сборки сервера с нужной функцией. Хотя в некоторых выступлениях разработчики обсуждали что в перспективе, такое может быть появится через какие нибудь скриптовые языки. А какую функцию вы хотели написать ?

Постоянно возникает желание какой-нибудь хитрой обработки данных (шифрования например)
Если б такое можно было реализовать на какомнить lua, подписавшись на события или иным образом - это бы решило некоторые бизнес задачи без приседаний.

11:15пожаловаться #7

D

ну тоже как вариант

а мой первый вариант не очень жизнеспособный я так понял?

11:15пожаловаться #8

DT

Dmitry Koreckiy

ну тоже как вариант

а мой первый вариант не очень жизнеспособный я так понял?

ну ты же сказал, что данные агрегирует правильно, так что возможно работоспособный.
но кмк лучше делать проще.

11:16пожаловаться #9

E

щас пилят возможность UDF
но желающие могут уже попробовать накостылять через cache словарь.

Через кеш имеется в виду - построить свой метаязык в виде кодирования запроса в ключ и получения значения по ключу через внешний сервис? Который будет ключ декодировать правильно и выдавать ответ

11:16пожаловаться #10

DT

Eugene

Через кеш имеется в виду - построить свой метаязык в виде кодирования запроса в ключ и получения значения по ключу через внешний сервис? Который будет ключ декодировать правильно и выдавать ответ

зачем метаязык?
словари поддерживают нескольких колонок как комплексный ключ.
а больше ведь никаких данных в таблицах и не существует.
а так да, потом либо по URL, либо по exec источнику словаря доставать данные

11:18пожаловаться #11

D

ну ты же сказал, что данные агрегирует правильно, так что возможно работоспособный.
но кмк лучше делать проще.

спасибо за совет 🙂 попробую и если что - отпишу)

Можешь еще подсказать на счет index_granularity? Как правильно его расчитать? Если оставлять дефолтный 8192, то тогда очень много данных кх левых читает

11:20пожаловаться #12

E

зачем метаязык?
словари поддерживают нескольких колонок как комплексный ключ.
а больше ведь никаких данных в таблицах и не существует.
а так да, потом либо по URL, либо по exec источнику словаря доставать данные

sticker.webp

(25.3 Кб)

11:22пожаловаться #13

E

Спасибо

11:22пожаловаться #14

DT

ну если у тебя точечные запросы по айди, то можно примерно почувствовать так:
получаем максимальное число id в 1 партиции (но помним, что данные хранятся в партах, которые есть только некая часть партиции) прикидываем в какой размер гранулы попадет это число

11:23пожаловаться #15

DT

но слишком частые гранулы тоже ничего хорошего, ведь PK сидит в оперативной памяти всегда

11:23пожаловаться #16

DT

По поводу очень много, нужно возможно чуть подождать, что бы данные после инсерта смержились, скорее всего ситуация была бы лучше

11:26пожаловаться #17

D

Если я правильно понял, то у меня гранула должна охватывать максимальное количество записей для конкретного _id в рамках партиции.

Начал играть с гранулами после того как увидел вот это:

На исходной таблице dynamic, если верить табиксу, получаются такие затраты:

0.01 sec.| 407,073 rows.| 14 MB

При том что размер самой таблицы 16793961 rows
И для конкретного _id +- 152 rows

11:29пожаловаться #18

DT

ну у тебя месячные партиции, те кликхаус должен прочитать 12(месяцев)*8192*2(может быть такая ситуация, что попало между двух гранул)*N(число партов в партициях)

11:32пожаловаться #19

DT

если допустить, что число партов где то 3-4, то выходит нужно прочесть 600к строк)