Телеграмм чат группы clickhouse_ru страница 8107

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ClickHouse не тормозит

4224 membersпожаловаться на группу

2020 August 27

DT

Dmitry Titov in ClickHouse не тормозит

Ilya Vishnevsky

Ребята, подскажите, индекс по timestamp филду имеет смысл делать? Или лучше транкейтить до дня, чтобы мощность множества уменьшить ?

Ну тут смотря, какие еще поля участвуют в индексе.
Возможны разные комбинации, допустим
ORDER BY (key1,toDate(timestamp),key2,timestamp)

источник

01:11пожаловаться #1

IV

Ilya Vishnevsky in ClickHouse не тормозит

Ну то есть, в конце составного индекса допустимо, первым судя по всему не имеет смысл ts юзать

источник

01:13пожаловаться #2

DT

Dmitry Titov in ClickHouse не тормозит

Первым в 99% случаях не стоит делать таймстамп в индексе.

источник

01:13пожаловаться #3

p

pv in ClickHouse не тормозит

Первым в 99% случаях не стоит делать таймстамп в индексе.

А можно прояснить этот момент?
Т.е. если есть условная таблица

    CREATE TABLE
    (
       created DateTime('UTC') DEFAULT now(),
       name LowCardinality(String),
       value Float64
       ...
    )
    PARTITION BY toStartOfDay(created)
    PRIMARY KEY(created,name)
    ORDER BY (created,name)

То не нужно включать created в PK даже если выборки всегда идут по диапазону времени?

источник

01:44пожаловаться #4

DT

Dmitry Titov in ClickHouse не тормозит

А можно прояснить этот момент?
Т.е. если есть условная таблица

    CREATE TABLE
    (
       created DateTime('UTC') DEFAULT now(),
       name LowCardinality(String),
       value Float64
       ...
    )
    PARTITION BY toStartOfDay(created)
    PRIMARY KEY(created,name)
    ORDER BY (created,name)

То не нужно включать created в PK даже если выборки всегда идут по диапазону времени?

Ну, тут дело в том, что обычно в запросах не только выборки по времени а допустим и по name. В таком случае обычно эффективнее отбросить сразу большое число записей по name и уже оставшееся отбрасывать дальше по времени.
Отдельный вопрос какой процент запросов обращается к данным меньше, чем за один день

источник

01:47пожаловаться #5

p

pv in ClickHouse не тормозит

Ну, тут дело в том, что обычно в запросах не только выборки по времени а допустим и по name. В таком случае обычно эффективнее отбросить сразу большое число записей по name и уже оставшееся отбрасывать дальше по времени.
Отдельный вопрос какой процент запросов обращается к данным меньше, чем за один день

Т.е. тогда не то, чтобы выкинуть created, а переместить его типа PK(name, created)?

источник

01:48пожаловаться #6

DT

Dmitry Titov in ClickHouse не тормозит

Т.е. тогда не то, чтобы выкинуть created, а переместить его типа PK(name, created)?

Да, обычно timestamp находит себе место в конце ORDER BY

источник

01:49пожаловаться #7

p

pv in ClickHouse не тормозит

Отдельный вопрос какой процент запросов обращается к данным меньше, чем за один день

В моём случае скорее всего да, чаще запросы за сутки, реже за несколько дней.

источник

01:49пожаловаться #8

p

pv in ClickHouse не тормозит

Но я не связан с предыдущим вопрошающим если что)

источник

01:50пожаловаться #9

DT

Dmitry Titov in ClickHouse не тормозит

Допустим в запросе нужно взять данные за час и для определенного name,
В твоем случае запрос просканирует все данные за час.
в случае name,timestamp запрос просканирует данные только для этого name и тут уже в зависимости от кол-ва записей просканирует записи за какой то диапазон времени.

источник

01:51пожаловаться #10

DT

Dmitry Titov in ClickHouse не тормозит

Отдельный вопрос какой процент запросов обращается к данным меньше, чем за один день

В моём случае скорее всего да, чаще запросы за сутки, реже за несколько дней.

Ну запрос за сутки, это как раз говорит в пользу name,timestamp.
Тк зачем тебе посекундная точность границ?) ты же запрашиваешь день.

источник

01:53пожаловаться #11

p

pv in ClickHouse не тормозит

Да. Ход мысли я кажется уловил )
Спасибо..

А тогда уточняющий. Это для PK или для ORDER BY нужно учитывать? Или для обоих эту логику применять?

источник

01:54пожаловаться #12

DT

Dmitry Titov in ClickHouse не тормозит

Да. Ход мысли я кажется уловил )
Спасибо..

А тогда уточняющий. Это для PK или для ORDER BY нужно учитывать? Или для обоих эту логику применять?

PK и ORDER BY си есть одно и тоже(почти).
когда ты не задаешь PK, это означает PK=ORDER BY.
когда ты задаешь отдельный PK, который может быть только префиксом ORDER BY, это означает что clickhouse в памяти будет хранить именно PK и использует его для проверки условий WHERE, а данные на диске лежат в более полной сортировке ORDER BY.

источник

01:56пожаловаться #13

DT

Dmitry Titov in ClickHouse не тормозит

Это нужно, что бы не раздувать объем занимаемым ключом в оперативной памяти, бывает что в сортировке лучше задать больше полей(допустим так сжатие будет лучше)

источник

01:57пожаловаться #14

p

pv in ClickHouse не тормозит

И как я понимаю идеально, чтобы в запросах всегда был ORDER BY совпадающий с заданным для таблицы?

источник

01:58пожаловаться #15

DT

Dmitry Titov in ClickHouse не тормозит

И как я понимаю идеально, чтобы в запросах всегда был ORDER BY совпадающий с заданным для таблицы?

Я бы сказал, что это позволит читать меньше данных если у вас в запросе есть LIMIT, в общем же случае скорее всего будет использован более оптимальный способ сортировки(я думаю), ну и кстати кликхаус достаточно умный и он умеет оптимизировать и ключ сортировки запроса обратный ключу сортировки таблицы.(или неполный ключ сортировки запроса.)

источник

02:01пожаловаться #16

DT

Dmitry Titov in ClickHouse не тормозит

Если вам сортировка в запросе не нужна, то никакой особой разницы вам не будет.

источник

02:01пожаловаться #17

p

pv in ClickHouse не тормозит

Хорошо. Стало понятнее. Спасибо ещё раз..

источник

02:02пожаловаться #18

DT

Dmitry Titov in ClickHouse не тормозит

Там потихоньку вмерживают оптимизации для GROUP BY по ключу сортировки, но я особо не сталкивался насколько оно быстрее работает.

источник

02:03пожаловаться #19

DC

Denny Crane [not a Y... in ClickHouse не тормозит

на самом деле PK ввели отличный от ORDER by чтобы была возможность в коллапсирующих движках урезать индекс и добавить возможность на лету добалять размерности т.е. был у вас SummingMT и у него был order by с1, с2, с3,........................................................... с38 и все это лежало в памяти и фильтровалось при where , PK позволил сделать PK с1, с2, с3 order by с1, с2, с3,........................................................... с38

источник

02:05пожаловаться #20