Size: a a a

ClickHouse не тормозит

2020 June 23

K

Katherine in ClickHouse не тормозит
привет!
есть distributed таблица на кластере из 2 шардов (по 2 реплики на каждом). Замечено, что при вставке большого количества строк данные начинают теряться. Опытным путем найдено число строк (~5,24млн), на котором резко строки начинают пропадать (работает для таблиц как с двумя, так и с сотней полей одинаково).
Что происходит и что здесь можно сделать?
источник

Д

Данияр in ClickHouse не тормозит
Katherine
привет!
есть distributed таблица на кластере из 2 шардов (по 2 реплики на каждом). Замечено, что при вставке большого количества строк данные начинают теряться. Опытным путем найдено число строк (~5,24млн), на котором резко строки начинают пропадать (работает для таблиц как с двумя, так и с сотней полей одинаково).
Что происходит и что здесь можно сделать?
ключ шардирования какой?
источник

DT

Dmitry Titov in ClickHouse не тормозит
Alexander Ryzhenko
Подскажите еще такое.

Хотим обновить КХ на проде до самой последней стабильной.

Есть v20.4.5.36-stable 13 дней назад и
v20.1.14.107-stable 12 дней назад

Где можно посмотреть различия между версиями?
А еще есть LTS - в чем профит использование версии ниже, но LTS?
лтс будет поддерживаться год
источник

WK

Wolf Kreuzerkrieg in ClickHouse не тормозит
Коллеги, а где вся кликхаусовская банда? на девовском канале тишина уже два дня...
источник

A

AlexanderWM 💎 in ClickHouse не тормозит
Мигрировали на Vertica
источник

WK

Wolf Kreuzerkrieg in ClickHouse не тормозит
лол
источник

K

Katherine in ClickHouse не тормозит
Данияр
ключ шардирования какой?
все приблизительно такие murmurHash2_32(product_cd) % 2
источник

AR

Alexander Ryzhenko in ClickHouse не тормозит
Dmitry Titov
лтс будет поддерживаться год
но в ней не будет всего того, о чем говорят на митапах? (вот например в последнем много для нас интересного в 20.5)
источник

DT

Dmitry Titov in ClickHouse не тормозит
Alexander Ryzhenko
но в ней не будет всего того, о чем говорят на митапах? (вот например в последнем много для нас интересного в 20.5)
не будет
источник

AR

Alexander Ryzhenko in ClickHouse не тормозит
Dmitry Titov
не будет
Ну и так понимаю,не-лтс релизы - это новые фичи, но по тонкому льду)
источник

DT

Dmitry Titov in ClickHouse не тормозит
Ну известные баги там стараются тоже фиксить, просто в некоторых компаниях обновить мажорную версию может быть сильно запарно, а багфиксы проще.
источник

AK

Alex Krash in ClickHouse не тормозит
Dmitry Titov
Ну известные баги там стараются тоже фиксить, просто в некоторых компаниях обновить мажорную версию может быть сильно запарно, а багфиксы проще.
Да, апдейт мажорной версии, как правило, сопряжен с большим количество изменений которые надо внести у себя. Надо чаще страдать :)
источник

K

Katherine in ClickHouse не тормозит
Katherine
привет!
есть distributed таблица на кластере из 2 шардов (по 2 реплики на каждом). Замечено, что при вставке большого количества строк данные начинают теряться. Опытным путем найдено число строк (~5,24млн), на котором резко строки начинают пропадать (работает для таблиц как с двумя, так и с сотней полей одинаково).
Что происходит и что здесь можно сделать?
уточнение: вставляю данные из csv через clickhouse-client
источник

DT

Dmitry Titov in ClickHouse не тормозит
Katherine
привет!
есть distributed таблица на кластере из 2 шардов (по 2 реплики на каждом). Замечено, что при вставке большого количества строк данные начинают теряться. Опытным путем найдено число строк (~5,24млн), на котором резко строки начинают пропадать (работает для таблиц как с двумя, так и с сотней полей одинаково).
Что происходит и что здесь можно сделать?
как проверяешь пропадают ли строки или нет?
источник

K

Katherine in ClickHouse не тормозит
Dmitry Titov
как проверяешь пропадают ли строки или нет?
по количеству) вставляю в пустую таблицу
источник

DT

Dmitry Titov in ClickHouse не тормозит
окей, если ты вставляешь в дистрибьютед таблицу, то данные по шардам и репликам разлетаются асинхронно, так что возможно стоит немного подождать и все
источник

ЯК

Ян Калмычков... in ClickHouse не тормозит
Dmitry Titov
окей, если ты вставляешь в дистрибьютед таблицу, то данные по шардам и репликам разлетаются асинхронно, так что возможно стоит немного подождать и все
плюсую, то же могу сказать и про обработку из кафки через матвью - очеред прочитана, новых сообщений нет, но количество записей в целевой таблице меньше количества переданного в топик. Ошибок нет. Пробовал на 10млн - через часа два после прочитки последнего сообщения из топика кафки все данные появляются в целевой таблице, вероятно внутри клика как-то обрабатываются, утряхиваются...
источник

K

Katherine in ClickHouse не тормозит
спасибо, сейчас попробуем, отпишусь, если поможет)
источник

PL

Piotr Liakhavets in ClickHouse не тормозит
Ребят, поискал в гите - не нашел такой баг (мож конечно и фича, или я сам дурак)
create table tab_name on cluster <cluster> as <teable_with_engine=Merge>  engine=ReplicatedMergeTree ...
орабатывает ок и даже можно юзать
но при рестарте сервера ZK настаивал что у таблицы не тот ДДЛ (встречал похожие баги в гите и тут в истории, обычно про дефолты и про действительную разницу между аттач в мете на разных машинах)
2020.06.22 16:26:20.057518 [ 3772706 ] {} <Error> ThreadPool: Exception in ThreadPool(max_threads: 32, max_free_threads: 32, queue_size: 32, shutdown_on_exception: 1).: Code: 122, e.displayText() = DB::Exception: Table columns structure in ZooKeeper is different from local table structure: Cannot attach table <db>.<table_name> from metadata file /var/lib/clickhouse/metadata/<db>/<table_name>.sql from query ATTACH TABLE <table_name>

При проверке в ZK оказалось что он магическую колонку
_table String
счел как боевую, и собственно на нее и ругался
При этом в метаданных кх (/var/lib/clickhouse/metadata/<db>/<table_name>.sql, идентичных на машинах кластера) этой колонки естественно не было

Собственно вопрос: баг? / фича? (+= заводить в гите?)

*+ я теперь опасаюсь за потенциальные проблемы с _shard_num колонкой
источник

DT

Dmitry Titov in ClickHouse не тормозит
Piotr Liakhavets
Ребят, поискал в гите - не нашел такой баг (мож конечно и фича, или я сам дурак)
create table tab_name on cluster <cluster> as <teable_with_engine=Merge>  engine=ReplicatedMergeTree ...
орабатывает ок и даже можно юзать
но при рестарте сервера ZK настаивал что у таблицы не тот ДДЛ (встречал похожие баги в гите и тут в истории, обычно про дефолты и про действительную разницу между аттач в мете на разных машинах)
2020.06.22 16:26:20.057518 [ 3772706 ] {} <Error> ThreadPool: Exception in ThreadPool(max_threads: 32, max_free_threads: 32, queue_size: 32, shutdown_on_exception: 1).: Code: 122, e.displayText() = DB::Exception: Table columns structure in ZooKeeper is different from local table structure: Cannot attach table <db>.<table_name> from metadata file /var/lib/clickhouse/metadata/<db>/<table_name>.sql from query ATTACH TABLE <table_name>

При проверке в ZK оказалось что он магическую колонку
_table String
счел как боевую, и собственно на нее и ругался
При этом в метаданных кх (/var/lib/clickhouse/metadata/<db>/<table_name>.sql, идентичных на машинах кластера) этой колонки естественно не было

Собственно вопрос: баг? / фича? (+= заводить в гите?)

*+ я теперь опасаюсь за потенциальные проблемы с _shard_num колонкой
При проверке в ZK оказалось что он магическую колонку
_table String

у тебя есть такая колонка в ддл?
источник