Телеграмм чат группы clickhouse

2020 June 15

OG

Now - 5 days будет со временем, соответственно выберется только 4 дня

Это то ладно, в запросе происходит группировка по дням, т.е. те даты которые выводятся должны же коректно подсчитаться, кмк..

источник

12:19пожаловаться #1

OG

Oleg Gritsak in ClickHouse не тормозит

Oleg Gritsak

Исправил запрос B, добавил в условии toDate к интервалу. Запрос теперь выводит верные значения, но если честно не особо понимаю в чём "магия" заключается

select
    toDate(clicked_at),
    count()
from stats.ad_clicks
where toDate(clicked_at) > toDate(now() -  interval '5' DAY)
group by toDate(clicked_at);

Буду благодарен, если кто-нибудь укажет на issue или на доку или обьяснит самостоятельно, почему count в группировке в этом запросе без toDate на интервал работает некоректно

источник

12:22пожаловаться #2

AK

Anton Khokhrin in ClickHouse не тормозит

Oleg Gritsak

Буду благодарен, если кто-нибудь укажет на issue или на доку или обьяснит самостоятельно, почему count в группировке в этом запросе без toDate на интервал работает некоректно

Неплохо бы знать версию сервера и пример данных

источник

12:24пожаловаться #3

OG

Oleg Gritsak in ClickHouse не тормозит

Anton Khokhrin

Неплохо бы знать версию сервера и пример данных

ClickHouse server version 19.11.3 revision 54423.

Широкая таблица которая хранит построчно сырые события от приложения.
Задача: получить кол-во событий по дням.

clicked_at DateTime,

источник

12:26пожаловаться #4

T

Tony in ClickHouse не тормозит

Всем день добрый. У меня есть таблица в которой записи упорядочены по ключу (случайный набор символов). Такая таблица создана в основном для point queries (по этому ключу). Какой следует выбрать "PARTITION BY"? На ум приходит только "PARTITION BY substring(ключ, 0, 1)" (патриции исходя из первого символа ключа, для более быстрого поиска). Верен ли такой подход?

источник

12:27пожаловаться #5

DC

Denny Crane (I don't... in ClickHouse не тормозит

Денис Никульников

Всем привет. Подскажите, пожалуйста какой index_granularity (mergetree) можно выставить на таблице в которой в день прибавляется по 1млрд записей? От чего отталкиваться при выставлении данного параметра?

оставить дефолтный?
отталкиваться от кол-ва строк которые процессит селект. уменьшать, если запросам нужна быстрая точная навигация на одну строку с помощью первичного ключа

источник

12:28пожаловаться #6

DC

Denny Crane (I don't... in ClickHouse не тормозит

Tony

Всем день добрый. У меня есть таблица в которой записи упорядочены по ключу (случайный набор символов). Такая таблица создана в основном для point queries (по этому ключу). Какой следует выбрать "PARTITION BY"? На ум приходит только "PARTITION BY substring(ключ, 0, 1)" (патриции исходя из первого символа ключа, для более быстрого поиска). Верен ли такой подход?

Не будет работать partition pruning. Надо в поле хранить substring() и по это у полю партиционировать

источник

12:33пожаловаться #7

T

Tony in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

Не будет работать partition pruning. Надо в поле хранить substring() и по это у полю партиционировать

а если в отдельном поле хранить substring и по нему партиционировать и при этом сортировать по ключу, то будет ли кликхаус понимать, что при запросе select something from table where ключ = QWErty, нужно смотреть только на парт "Q"?

источник

12:36пожаловаться #8

DC

Denny Crane (I don't... in ClickHouse не тормозит

Tony

а если в отдельном поле хранить substring и по нему партиционировать и при этом сортировать по ключу, то будет ли кликхаус понимать, что при запросе select something from table where ключ = QWErty, нужно смотреть только на парт "Q"?

Надо поле тоже в where использовать and part_key=Q
https://stackoverflow.com/questions/60142967/how-to-understand-part-and-partition-of-clickhouse/60155974#60155974

источник

12:38пожаловаться #9

T

Tony in ClickHouse не тормозит

а может быть тогда вообще не использовать партиционирование?

источник

12:40пожаловаться #10

DC

Denny Crane (I don't... in ClickHouse не тормозит

Tony

а может быть тогда вообще не использовать партиционирование?

может быть.

Может быть у вас 6 строк в таблице.
А может вы дропаете целыми буквами.

источник

12:43пожаловаться #11

T

Tony in ClickHouse не тормозит

попробую сделать доп колонку

источник

12:44пожаловаться #12

T

Tony in ClickHouse не тормозит

спасибо

источник

12:44пожаловаться #13

T

Tony in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

Надо поле тоже в where использовать and part_key=Q
https://stackoverflow.com/questions/60142967/how-to-understand-part-and-partition-of-clickhouse/60155974#60155974

тогда нужно еще сделать order by (part_key, key) ?

источник

12:52пожаловаться #14

DC

Denny Crane (I don't... in ClickHouse не тормозит

Tony

тогда нужно еще сделать order by (part_key, key) ?

Нет. Не нужно

источник

12:53пожаловаться #15

T

Tony in ClickHouse не тормозит

А какое оптимальное количество партиций рекомендуется ?

источник

12:55пожаловаться #16

D

Dj in ClickHouse не тормозит

Tony

А какое оптимальное количество партиций рекомендуется ?

42 :)

источник

12:56пожаловаться #17

T

Tony in ClickHouse не тормозит

Я могу в part_key брать первый символ, а могу брать 2 первых символа. Второй способ даст небольшой выигрыш для поиска по ключу, но тогда партиций будет аж 4 тысячи

источник

12:57пожаловаться #18

D

Dj in ClickHouse не тормозит

Tony

Я могу в part_key брать первый символ, а могу брать 2 первых символа. Второй способ даст небольшой выигрыш для поиска по ключу, но тогда партиций будет аж 4 тысячи

это уже ближе к верхнему пределу

источник

12:57пожаловаться #19

D

Dj in ClickHouse не тормозит

а если группировать второй символ?

источник

12:58пожаловаться #20