Size: a a a

ClickHouse не тормозит

2020 May 27

A

Andrey in ClickHouse не тормозит
Rail
эх, ну наверное придется копать в сторону replasingmergeetree
Не надо его бояться, это нормальный. В гите уж слишком категорично написано)))
Понятно что работать оно будет медленнее чем селект из того же mergetree. Но если нужны обновления то выбора особо нет.
источник

R

Rail in ClickHouse не тормозит
Andrey
Не надо его бояться, это нормальный. В гите уж слишком категорично написано)))
Понятно что работать оно будет медленнее чем селект из того же mergetree. Но если нужны обновления то выбора особо нет.
принято, спасиб за ответ)
источник

A

Andrey in ClickHouse не тормозит
У меня вот загадка которую пока не могу решить.
Есть таблица на движке ReplacingMergeTree()
партиционирование по toYYYYMM(event_date).
И тут на днях заметил что некоторые партиции занимают чуть ои не в 2 раза больше места.
Начал разбираться и обнаружил странное.

Если посмотреть на количество строк, то там +/- они одинаковы.  
Distinct так же показывает что порядок цифр один и тот же.
Размер несжатых данных, так же похож.
Но если посмотреть на размер сжатых данных, то разница иногда больше чем в 2 раза.

ClickHouse: 20.1.2.4
Почему так может быть?
источник

DT

Dmitry Titov in ClickHouse не тормозит
Andrey
У меня вот загадка которую пока не могу решить.
Есть таблица на движке ReplacingMergeTree()
партиционирование по toYYYYMM(event_date).
И тут на днях заметил что некоторые партиции занимают чуть ои не в 2 раза больше места.
Начал разбираться и обнаружил странное.

Если посмотреть на количество строк, то там +/- они одинаковы.  
Distinct так же показывает что порядок цифр один и тот же.
Размер несжатых данных, так же похож.
Но если посмотреть на размер сжатых данных, то разница иногда больше чем в 2 раза.

ClickHouse: 20.1.2.4
Почему так может быть?
какой кодек
источник

DT

Dmitry Titov in ClickHouse не тормозит
вообще многовато жрет, ты пользуешься кодеками?
источник

A

Andrey in ClickHouse не тормозит
Dmitry Titov
какой кодек
руками не выбирал, таблица оч старая, еще со времен когда его нельзя было менять.
На память не помню, могу посмотреть если нужно)
источник

A

Andrey in ClickHouse не тормозит
Dmitry Titov
вообще многовато жрет, ты пользуешься кодеками?
неа, вообще дефолтная в этом плане таблица
источник

DT

Dmitry Titov in ClickHouse не тормозит
Andrey
неа, вообще дефолтная в этом плане таблица
зря, зря)
на самом деле можно добавить кодеки на лету, емнип они будут действовать для новых данных
источник

DT

Dmitry Titov in ClickHouse не тормозит
Andrey
У меня вот загадка которую пока не могу решить.
Есть таблица на движке ReplacingMergeTree()
партиционирование по toYYYYMM(event_date).
И тут на днях заметил что некоторые партиции занимают чуть ои не в 2 раза больше места.
Начал разбираться и обнаружил странное.

Если посмотреть на количество строк, то там +/- они одинаковы.  
Distinct так же показывает что порядок цифр один и тот же.
Размер несжатых данных, так же похож.
Но если посмотреть на размер сжатых данных, то разница иногда больше чем в 2 раза.

ClickHouse: 20.1.2.4
Почему так может быть?
а сколько партов в каждой партиции?
источник

A

Andrey in ClickHouse не тормозит
Dmitry Titov
а сколько партов в каждой партиции?
202002 - 1
202004 - 5
источник

DT

Dmitry Titov in ClickHouse не тормозит
Andrey
202002 - 1
202004 - 5
скорее всего это может быть частью ответа, почему такая разница в занимаемом объеме
источник

AM

Alexey Milovidov in ClickHouse не тормозит
Dj
@milovidov_an

а можно узнать что с этим случилось? очень классная фича просто для lat/lon (по сути позволяет не городить огород с geohash)

https://github.com/ClickHouse/clickhouse-presentations/blob/master/meetup27/beautiful_indexing.pdf

https://youtu.be/5GR1J4T4_d8?t=1939
Эта фича перешла к одному из исполнителей, но этот человек потерял интерес к задаче. Сейчас доделывать будет изначальный автор в июле.
источник

A

Andrey in ClickHouse не тормозит
Dmitry Titov
скорее всего это может быть частью ответа, почему такая разница в занимаемом объеме
думаешь стоит прогнать optimize final?
источник

DT

Dmitry Titov in ClickHouse не тормозит
Andrey
думаешь стоит прогнать optimize final?
ну, если вас смущает объем данных, то можете.
На самом деле оно потихоньку само пережмет это дело в фоне.
источник

A

Andrey in ClickHouse не тормозит
Dmitry Titov
ну, если вас смущает объем данных, то можете.
На самом деле оно потихоньку само пережмет это дело в фоне.
да я просто у одной из партиций вроде прогонял уже, вроде не помогло.
Ща для чистоты эксперимента запущу на 202004
источник

Д

Дмитрий in ClickHouse не тормозит
скажите, пожалуйста, от какого порогового значения количества строк в таблице стоит начинать думать о применении партицирования для оптимизации скорости выполнения запросов?
источник

Д

Дмитрий in ClickHouse не тормозит
есть ли какие-либо best practies?
источник

DT

Dmitry Titov in ClickHouse не тормозит
Дмитрий
скажите, пожалуйста, от какого порогового значения количества строк в таблице стоит начинать думать о применении партицирования для оптимизации скорости выполнения запросов?
партиции скорее для более удобной манипуляции данными, чем для скорости
для скорости есть ORDER BY
источник

AM

Alexander Malikov in ClickHouse не тормозит
а репликация нормально работает между разными версиями?
в каких случаях она может не работать?
источник

DT

Dmitry Titov in ClickHouse не тормозит
Alexander Malikov
а репликация нормально работает между разными версиями?
в каких случаях она может не работать?
вообще лучше не стоит.
К примеру могут появляться предупреждения не совпадения данных 1 в  после мержа из за разных версий lz4 и тд
И тогда клик стягивает парт с другого сервера
источник