Телеграмм чат группы clickhouse

Я посмотрел это выступление (кстати хорошее, есть важные моменты, не упомянутые в доках) и всё-таки не понимаю механизма, при котором хорошо прожеванные данные будут занимать больше места. Я бы наоборот ожидал что для каких-то кодеков отсортированные данные будут сжиматься лучше.

я говорю про мержи.
Вы кладете в hdfs 100 паркет файликов по 100 МБ, они там лежат один раз записанные и есть не просят.

Вы кладете в КХ 100 паркет инсертов по 100MБ получаем сто партов _0, КХ мержит - берет первые 5, читает, распаковывает, соединяет, запаковывает, записывает парт_level_1 500МБ, берет следующие 5, потом берет и начинает мержить _1 из 500МБ в большие парт_level_2 по 1.5ГБ, и так до утра, весь диск с i/o 100% и CPU на 400%

У меня есть дата-лейки и на HDFS и на КХ, которые записываются один раз и читаются тоже в основном фулсканом 1 раз, я понимаю где смешно

источник

16:53пожаловаться #4

DM

Danila Migalin in ClickHouse не тормозит

Denny Crane [not a Yandex bot]

я говорю про мержи.
Вы кладете в hdfs 100 паркет файликов по 100 МБ, они там лежат один раз записанные и есть не просят.

Вы кладете в КХ 100 паркет инсертов по 100MБ получаем сто партов _0, КХ мержит - берет первые 5, читает, распаковывает, соединяет, запаковывает, записывает парт_level_1 500МБ, берет следующие 5, потом берет и начинает мержить _1 из 500МБ в большие парт_level_2 по 1.5ГБ, и так до утра, весь диск с i/o 100% и CPU на 400%

У меня есть дата-лейки и на HDFS и на КХ, которые записываются один раз и читаются тоже в основном фулсканом 1 раз, я понимаю где смешно

но ведь суммарно-то как было 100*100 мб, так и останется, так?
то что кх шебутной и постоянно себе диски теребит - это отдельный вопрос

источник

16:55пожаловаться #5

DC

Denny Crane [not a Y... in ClickHouse не тормозит

Danila Migalin

но ведь суммарно-то как было 100*100 мб, так и останется, так?
то что кх шебутной и постоянно себе диски теребит - это отдельный вопрос

да, как было суммарно 100*100 так и останется.

Я сказал что при записи в 100МБ , КХ будет их много раз читать и записывать, пока они не станут частью максимально возможного по размеру парта.

источник

16:57пожаловаться #6

K

Konstantin Ilchenko in ClickHouse не тормозит

Всем привет, подскажите пожалуйста, когда ловим такую ошибку, это в max_threads упираемся уже?

DB::Exception: Cannot schedule a task: While executing CreatingSetsTransform

источник

16:58пожаловаться #7

DC

Denny Crane [not a Y... in ClickHouse не тормозит

Konstantin Ilchenko

Всем привет, подскажите пожалуйста, когда ловим такую ошибку, это в max_threads упираемся уже?

DB::Exception: Cannot schedule a task: While executing CreatingSetsTransform

нет. Версия КХ ?

источник

16:59пожаловаться #8

K

Konstantin Ilchenko in ClickHouse не тормозит

20.8.9 revision 54438

источник

16:59пожаловаться #9

DC

Denny Crane [not a Y... in ClickHouse не тормозит

Konstantin Ilchenko

20.8.9 revision 54438

и что за запрос ? шардов много?

источник

17:05пожаловаться #10

DC

Denny Crane [not a Y... in ClickHouse не тормозит

Yulia Ch

Помогите, пожалуйста: у меня вылезает странная ошибка из jdbc, причем в одних вариантах запуска она есть, а в других нет. Запрос и ошибка тут https://paste.yandex-team.ru/4101946

тут почти нет сотрудников яндекса, вашу ссылку не открыть

источник

17:07пожаловаться #11

DC

Denny Crane [not a Y... in ClickHouse не тормозит

galina malkh

как получить пересечение результатов двух запросов? select ....INTERSECT select - есть такой функционал?

не должно быть таких вопросов с OLAP , скорее всего вашу задачу можно и нужно решить совсем по другому

источник

17:08пожаловаться #12

AG

Alexei Generalov in ClickHouse не тормозит

Добрый день.
Подскажите, как 100% ограничить потребление RAM на сервере ( Ubuntu) для кликхауса?
Нашел ответы, но чот все в открытых issues.

источник

17:22пожаловаться #13

K

Konstantin Ilchenko in ClickHouse не тормозит

Denny Crane [not a Yandex bot]

и что за запрос ? шардов много?

6 шардов

INSERT INTO дистрибьютед1
SELECT FROM дистрибьютед2
JOIN дистрибьютед3
JOIN дистрибьютед4

источник

17:27пожаловаться #14

AS

Alex Soldatov in ClickHouse не тормозит

Подскажите пожалуйста
есть кейс:
clickhouse с данными, которые раз в неделю дополняются данными из полного бекапа при помощи clickhouse-backup restore. Есть ощущение, что некоторые данные дублируются.
Нужно ли делать drop всех данных перед рестором или нет?

источник

17:27пожаловаться #15

S

Slach in ClickHouse не тормозит

Alexei Generalov

Добрый день.
Подскажите, как 100% ограничить потребление RAM на сервере ( Ubuntu) для кликхауса?
Нашел ответы, но чот все в открытых issues.

https://clickhouse.tech/docs/en/operations/server-configuration-parameters/settings/#max_server_memory_usage

clickhouse.tech

Server Settings | ClickHouse Documentation

Server Settings builtin_dictionaries_reload_interval The interval in seconds before reloading built-in dictionaries. Cli

источник

17:28пожаловаться #16

S

Slach in ClickHouse не тормозит

Alex Soldatov

Подскажите пожалуйста
есть кейс:
clickhouse с данными, которые раз в неделю дополняются данными из полного бекапа при помощи clickhouse-backup restore. Есть ощущение, что некоторые данные дублируются.
Нужно ли делать drop всех данных перед рестором или нет?

хм, вы clickhouse-backup restore делаете при работающем clickhouse-server ?

источник

17:29пожаловаться #17

AG

Alexei Generalov in ClickHouse не тормозит

Slach

https://clickhouse.tech/docs/en/operations/server-configuration-parameters/settings/#max_server_memory_usage

clickhouse.tech

Server Settings | ClickHouse Documentation

Server Settings builtin_dictionaries_reload_interval The interval in seconds before reloading built-in dictionaries. Cli

Спасибо.

источник