Телеграмм чат группы clickhouse_ru страница 7665

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ClickHouse не тормозит

4029 membersпожаловаться на группу

2020 June 24

D

Dj in ClickHouse не тормозит

Required Optional

Добрый день, коллеги! Приветствую особенно гуру, что не боты. Не могли бы вы помочь слепцу в поисках истинны среди всяческого индексированного добра.
Что есть: огромная реплицированная таблица с 10 млрд линий и около 100 колонок. Есть партицирование ее по дате и одному инту(назовем его комит_ид), сортировка по двум стрингам и еще одному инту. Первичный ключ не указан. Сделанно специально, чтобы оптимизировать некоторые запросы типа SELECT. Теперь появились новые запросы в соторые еще добавились сравнение на равенство по колонки типа ЮИнт64 (который некий хэш) и один Инт8 у которого 2 значения : +1 или -1. По ключу сортировки и партиции тоже сравнение на равенство.
Проблема: впечатление, что КХ сканирует все, так как запрос производится в течение 20 с. Попытался добавить минмакс индекс и блум-филтер. Переоптимизировал таблицу. Время не улучшилось, а иногда в некоторых вариантах ухудшилось.
Вопрос: у кого естль луч света в царстве индексирования данных и оптимизации? Заранее благодарен

еще есть вариант сделать партишны по (дата, бакет-хешей),
т.е. бьёте на 20 бакетов каждую партицию по префиксу хеша, и запросы делают меньшие фулсканы

источник

18:14пожаловаться #1

DT

Dmitry Titov in ClickHouse не тормозит

Required Optional

Добрый день, коллеги! Приветствую особенно гуру, что не боты. Не могли бы вы помочь слепцу в поисках истинны среди всяческого индексированного добра.
Что есть: огромная реплицированная таблица с 10 млрд линий и около 100 колонок. Есть партицирование ее по дате и одному инту(назовем его комит_ид), сортировка по двум стрингам и еще одному инту. Первичный ключ не указан. Сделанно специально, чтобы оптимизировать некоторые запросы типа SELECT. Теперь появились новые запросы в соторые еще добавились сравнение на равенство по колонки типа ЮИнт64 (который некий хэш) и один Инт8 у которого 2 значения : +1 или -1. По ключу сортировки и партиции тоже сравнение на равенство.
Проблема: впечатление, что КХ сканирует все, так как запрос производится в течение 20 с. Попытался добавить минмакс индекс и блум-филтер. Переоптимизировал таблицу. Время не улучшилось, а иногда в некоторых вариантах ухудшилось.
Вопрос: у кого естль луч света в царстве индексирования данных и оптимизации? Заранее благодарен

таблица
ORDER BY str1,str2,int1
Но судя из описания были у вас запросы
WHERE str1='' and str2='' and int1 = 3

а теперь появились
WHERE str1='' and str2='' and int1 = 3 and hash = '' and int2 = 1
или
WHERE hash = '' and int2 = 1

источник

18:15пожаловаться #2

DP

Dorian Peregrim in ClickHouse не тормозит

А бывает такое, что таблица просто взяла и исчезла? 😕

источник

18:15пожаловаться #3

D

Dj in ClickHouse не тормозит

Dorian Peregrim

А бывает такое, что таблица просто взяла и исчезла? 😕

да, удалили sql файл из папки метадаты например. ну или в логи...

источник

18:17пожаловаться #4

RO

Required Optional in ClickHouse не тормозит

единственный случай когда вам помогут скип индексы это когда у вас есть какая то локальность данных(те что учавствуют в скип индексе), с учетом ORDER BY таблицы

спасибо. Могли бы вы показать на примере? Что подразумевается под локальностью данных? частичная монотонность?

источник

18:17пожаловаться #5

DT

Dmitry Titov in ClickHouse не тормозит

Required Optional

спасибо. Могли бы вы показать на примере? Что подразумевается под локальностью данных? частичная монотонность?

Есть у нас таблица в 10млрд записей с какой то сортировкой
есть в этой таблице колонка UInt8 которая не учавствует в ключе

И допустим только у 100 записей в этой таблице значение 1 во всех остальных 0
Тогда скип индекс set или minMax в это случае сработает

источник

18:19пожаловаться #6

DC

Denny Crane (I don't... in ClickHouse не тормозит

Dorian Peregrim

А бывает такое, что таблица просто взяла и исчезла? 😕

да конечно, а рядом появляется др. таблица, и в ней строка с объяснением куда переводить биткоины

источник

18:21пожаловаться #7

DP

Dorian Peregrim in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

да конечно, а рядом появляется др. таблица, и в ней строка с объяснением куда переводить биткоины

Смешно, было в песочнице с монгой )

источник

18:22пожаловаться #8

DC

Denny Crane (I don't... in ClickHouse не тормозит

Dorian Peregrim

Смешно, было в песочнице с монгой )

это было бы смешно если бы в этом чатике об этом не писали раза 3

источник

18:23пожаловаться #9

RO

Required Optional in ClickHouse не тормозит

я бот, но имхо нету. если ваш хеш не привязан к сортировке (локальность выше) скип индексы в мусорку.

рекомендую попробовать добавить ваш хеш в конец вашей сортировки, или перед комит-ид может помочь и проверить на саб-сете данных

спасибо попробую добавть в конец ключа сортировки хэш инт

источник

18:24пожаловаться #10

D

Dj in ClickHouse не тормозит

Required Optional

спасибо попробую добавть в конец ключа сортировки хэш инт

опять таки, зависит от кардинальности и "локальности" комбинации comit_id + hash
пока не попробуете имхо не познаете дзен (и это не реклама яндекс-дзена)

источник

18:26пожаловаться #11

RO

Required Optional in ClickHouse не тормозит

таблица
ORDER BY str1,str2,int1
Но судя из описания были у вас запросы
WHERE str1='' and str2='' and int1 = 3

а теперь появились
WHERE str1='' and str2='' and int1 = 3 and hash = '' and int2 = 1
или
WHERE hash = '' and int2 = 1

ну hash - UInt64, так что WHERE Date='' and str1='' and str2='' and int1=3 and hash=10 and int2=1

источник

18:27пожаловаться #12

DC

Denny Crane (I don't... in ClickHouse не тормозит

таблица
ORDER BY str1,str2,int1
Но судя из описания были у вас запросы
WHERE str1='' and str2='' and int1 = 3

а теперь появились
WHERE str1='' and str2='' and int1 = 3 and hash = '' and int2 = 1
или
WHERE hash = '' and int2 = 1

>>По ключу сортировки и партиции тоже сравнение на равенство.

>ORDER BY str1,str2,int1
>Но судя из описания были у вас запросы
>WHERE str1='' and str2='' and int1 = 3

>а теперь появились
>WHERE str1='' and str2='' and int1 = 3 and hash = '' and int2 = 1

так не должно ухудшится, префикс в индексе

источник

18:28пожаловаться #13

DT

Dmitry Titov in ClickHouse не тормозит

Required Optional

ну hash - UInt64, так что WHERE Date='' and str1='' and str2='' and int1=3 and hash=10 and int2=1

ну вообще я бы добавил тогда hash и int2 в ORDER BY
кстати, когда вы не указываете отдельно PK, то PK=ORDER BY

и такой вопрос у вас какая кардинальность str1,str2,int1

источник

18:28пожаловаться #14

DT

Dmitry Titov in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

>>По ключу сортировки и партиции тоже сравнение на равенство.

>ORDER BY str1,str2,int1
>Но судя из описания были у вас запросы
>WHERE str1='' and str2='' and int1 = 3

>а теперь появились
>WHERE str1='' and str2='' and int1 = 3 and hash = '' and int2 = 1

так не должно ухудшится, префикс в индексе

Да, но возможно ожидалось улучшение относительно "обычных" запросов

источник

18:30пожаловаться #15

AZ

Anton Zhuravsky in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

да вроде да, какая разница-то

кажется, разница есть: есть ключ во вложенной таблице - строка, то автомагия суммирования не работает. стоит заменить его на число – и все становится верно. Версия КХ 19.16

источник

18:30пожаловаться #16

DC

Denny Crane (I don't... in ClickHouse не тормозит

вообще непонятно насколько точные запросы нужны, и насколько быстрые, наверное можно сделать MV c инверсным индексом

источник

18:31пожаловаться #17

RO

Required Optional in ClickHouse не тормозит

Есть у нас таблица в 10млрд записей с какой то сортировкой
есть в этой таблице колонка UInt8 которая не учавствует в ключе

И допустим только у 100 записей в этой таблице значение 1 во всех остальных 0
Тогда скип индекс set или minMax в это случае сработает

UInt8 в 10 млрд случаях 1 и в 100-10000 случаях -1.

источник

18:31пожаловаться #18

DT

Dmitry Titov in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

вообще непонятно насколько точные запросы нужны, и насколько быстрые, наверное можно сделать MV c инверсным индексом

Ну если всегда есть префикс, то инверсный индекс тут не нужен, кмк

источник

18:31пожаловаться #19

DC

Denny Crane (I don't... in ClickHouse не тормозит

Anton Zhuravsky

кажется, разница есть: есть ключ во вложенной таблице - строка, то автомагия суммирования не работает. стоит заменить его на число – и все становится верно. Версия КХ 19.16

чендлог читайте, месяцев 6 назад сделали строки

источник

18:32пожаловаться #20