Size: a a a

ClickHouse не тормозит

2021 February 20

В

Виктор in ClickHouse не тормозит
Добрый день. Подскажите пожалуйста: в каком порядке лучше расположить поля в order by

host - хост машины с которой прилетел лог (~ 100 вариантов)
http_host - заголовок Host (~ 50000 вариантов)
datetime - время лога

Партиции по datetime

Сейчас такой порядок: host, http_host, datetime
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
смотря какие выборки делаете
источник

DT

Dmitry Titov in ClickHouse не тормозит
Виктор
Добрый день. Подскажите пожалуйста: в каком порядке лучше расположить поля в order by

host - хост машины с которой прилетел лог (~ 100 вариантов)
http_host - заголовок Host (~ 50000 вариантов)
datetime - время лога

Партиции по datetime

Сейчас такой порядок: host, http_host, datetime
В целом адекватно, как еще один вариант

toDate(datetime), host, http_host, datetime
источник

DT

Dmitry Titov in ClickHouse не тормозит
Если у вас много запросов за 1-7 дней
источник

M

Mishanya in ClickHouse не тормозит
Виктор
Добрый день. Подскажите пожалуйста: в каком порядке лучше расположить поля в order by

host - хост машины с которой прилетел лог (~ 100 вариантов)
http_host - заголовок Host (~ 50000 вариантов)
datetime - время лога

Партиции по datetime

Сейчас такой порядок: host, http_host, datetime
обычно указывают от более уникальных к менее уникальным  стоблцам (от низкой к высокой кардинальности)
источник

В

Виктор in ClickHouse не тормозит
Dmitry Titov
Если у вас много запросов за 1-7 дней
А если за месяц выборки обычно? Поможет ли это ускорить выборку?
источник

DT

Dmitry Titov in ClickHouse не тормозит
Виктор
А если за месяц выборки обычно? Поможет ли это ускорить выборку?
Ну если большинство запросов за месяц+, то нет лучше не станет
источник

В

Виктор in ClickHouse не тормозит
Понял, спасибо всем за ответы
источник

M

Mishanya in ClickHouse не тормозит
если у вас партиции по dateitime, имеет ли большой смысл указывать вообще в ключе сортиовки его ?
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
Dmitry Titov
В целом адекватно, как еще один вариант

toDate(datetime), host, http_host, datetime
а в чем смысл в ключ сортировки добавлять datetime если выборки идут ~ по всей партиции все равно
источник

DT

Dmitry Titov in ClickHouse не тормозит
Mishanya
если у вас партиции по dateitime, имеет ли большой смысл указывать вообще в ключе сортиовки его ?
Да, смысл большй на самом деле, начиная от того что тк рядом более похожие записи-> лучше сжатие
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
Dmitry Titov
Да, смысл большй на самом деле, начиная от того что тк рядом более похожие записи-> лучше сжатие
codec DoubleDelta решает этот вопрос
источник

M

Mishanya in ClickHouse не тормозит
Dmitry Titov
Да, смысл большй на самом деле, начиная от того что тк рядом более похожие записи-> лучше сжатие
А можно попросить пояснить ?
прост в моем понимании если выборки по datetime, то сильно по перформансу не получится выиграть, тк прунинг по партиции же
источник

M

Mishanya in ClickHouse не тормозит
все равно +- то же самое читать
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
Mishanya
А можно попросить пояснить ?
прост в моем понимании если выборки по datetime, то сильно по перформансу не получится выиграть, тк прунинг по партиции же
у меня такие же наблюдения, но очень интнресны контраргументы
источник

DT

Dmitry Titov in ClickHouse не тормозит
KiLEX 萊赫
codec DoubleDelta решает этот вопрос
Решает только в том случае. если таймстемпы отсортирован, и вообще Delta обычно лучше
источник

В

Виктор in ClickHouse не тормозит
А где про кодеки почитать? Первый раз их вижу
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
Dmitry Titov
Решает только в том случае. если таймстемпы отсортирован, и вообще Delta обычно лучше
по моим наблюдениям дубльдельта сильно лучше оказался как раз на несортированных данных
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
Виктор
А где про кодеки почитать? Первый раз их вижу
источник

M

Mishanya in ClickHouse не тормозит
возможно, я понял вашу идею, но зачем добавлять время в ключ сортировки в самое начало ? если добавить его в конце будет побольше профита же
источник