Size: a a a

ClickHouse не тормозит

2020 September 24

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Максим
Добрый вечер. Подскажите, пожалуйста использование OPTIMIZE TABLE для принудительного "схлопывания" записей в таблицах ReplacingMT является "штатной" операцией или же это с точки зрения Clickhouse операция обслуживания и использовать её в продакашене для принудительного схлопывания не есть хорошо.
https://clickhouse.tech/docs/ru/engines/table-engines/mergetree-family/replacingmergetree/

Хотя вы можете вызвать внеочередное слияние с помощью запроса OPTIMIZE, на это не стоит рассчитывать, так как запрос OPTIMIZE приводит к чтению и записи большого объёма данных.

Таким образом, ReplacingMergeTree подходит для фоновой чистки дублирующихся данных в целях экономии места, но не даёт гарантии отсутствия дубликатов.



>* регулярно использовать. т.е загрузил файл , запустил схлопывание по партициям

можно конечно.
Другой вопрос, вот если я захочу помержить 7 партов за январь 2020 в один парт Final, это вызовет чтение 7 партов по 150ГБ, они разожмутся, сольются и запишутся на диск в парт размером 1TБ , это займет пару дней, в это время все будет несколько тормозить, и все будут огорчены.
источник

М

Максим in ClickHouse не тормозит
Понятно. Значит аналогия про optimize table верная. Спасибо!
источник

AP

Alexey Pikin in ClickHouse не тормозит
добрый день, у меня по стечению обстоятельств появились дубликаты в табличке MergeTree (абсолютно идентичные записи), как мне почистить (т.е. оставить только одну запись)? как я понимаю ALTER TABLE DELETE WHERE record_id = XXXX сотрет все экземпляры записи
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Alexey Pikin
добрый день, у меня по стечению обстоятельств появились дубликаты в табличке MergeTree (абсолютно идентичные записи), как мне почистить (т.е. оставить только одну запись)? как я понимаю ALTER TABLE DELETE WHERE record_id = XXXX сотрет все экземпляры записи
optimize table .... partition final DEDUPLICATE

ну или select distintct те записи в отдельную таблицу, удалить их всех, и вставить назад
источник

AP

Alexey Pikin in ClickHouse не тормозит
Denny Crane [not a Yandex bot]
optimize table .... partition final DEDUPLICATE

ну или select distintct те записи в отдельную таблицу, удалить их всех, и вставить назад
Спасибо, а deduplicate давно добавили? А то у меня КХ старый, полтора-два года давность
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Alexey Pikin
Спасибо, а deduplicate давно добавили? А то у меня КХ старый, полтора-два года давность
он был всегда
источник

AP

Alexey Pikin in ClickHouse не тормозит
Denny Crane [not a Yandex bot]
он был всегда
Понял, спасибо, буду пробовать
источник

AP

Alexey Pikin in ClickHouse не тормозит
@den_crane а OPTIMIZE ... FINAL DEDUPLICATE лочит какие-то запросы в параллельных сессиях (INSERT-ы или SELECT-ы)? В-целом, понятно, что перформанс на какое-то время просядет, потому что идет потребление iops диска и ЦПУ
источник

AA

Abdugani Adikhanov in ClickHouse не тормозит
Коллеги, добрый день. Как правильно синхронизвать данные через кафку? Я использую debezium для слива данных со всех микросервисов в единую базу. Хотелось бы часть данных так же заливать в кликхаус чтобы аналитики могли выдергивать нужные отчеты без ожидания т.к данных реально много.
источник

AC

Artem Chekunov in ClickHouse не тормозит
источник

OG

Oleg Gavrilov in ClickHouse не тормозит
Еще есть kafka connect clickhouse sink connector и jdbc драйвер для clickhouse
источник

EP

Evgen Pr in ClickHouse не тормозит
Коллеги, доброе утро.
если не сложно ткните в годную инструкцию как создать CH кластер на 3 реплики и зукипер
источник

КТ

Константин Трофимов... in ClickHouse не тормозит
там не сложно
ставишь зк и кх
описываешь в конфиге кх куда ходить в зукипер
профит
источник

КТ

Константин Трофимов... in ClickHouse не тормозит
могу прям из головы написать команд в лс чтоб тут не засорять, если хотите
источник

EP

Evgen Pr in ClickHouse не тормозит
было бы здорово
источник

AA

Abdugani Adikhanov in ClickHouse не тормозит
Oleg Gavrilov
Еще есть kafka connect clickhouse sink connector и jdbc драйвер для clickhouse
спасибо вам, буду изучать
источник

I

Ilya K. in ClickHouse не тормозит
Ребят, у кого-то был опыт объединения нескольких кластеров CH?
например, подставить над ними один кластер для общего доступа?
источник

I

Ilya K. in ClickHouse не тормозит
т.е.
имеем cluster_product_1, cluster_product_2
нужно: добавить общий кластер products_analytics, чтобы выполнять запросы и джоинить данные
источник

М

Максим in ClickHouse не тормозит
а вопрос в чем?
источник

М

Максим in ClickHouse не тормозит
я так мигрировался из одного ДЦ в другой
источник