Телеграмм чат группы clickhouse

2021 February 02

АБ

Алексей Барнев... in ClickHouse не тормозит

Vladimir Bunchuk

Получилось побороть?
Тоже сыпет сотни логов. Бесят )

неа... но уверен что проблема решится если приложения будут обращаться к серверу по порту 9000 )

источник

12:23пожаловаться #1

MD

Mikhail Dengin in ClickHouse не тормозит

Добрый день! Подскажите, насколько правильно использовать не временные поля при партиционировании, а какие-нибудь относительно низкокардинальные поля? При том, что это низкокардинальное поле уже часть ключа сортировки. Чувствую, что здесь что-то неправильно, но не могу аргументировать в споре.

источник

12:39пожаловаться #2

S

Sergey in ClickHouse не тормозит

Mikhail Dengin

Добрый день! Подскажите, насколько правильно использовать не временные поля при партиционировании, а какие-нибудь относительно низкокардинальные поля? При том, что это низкокардинальное поле уже часть ключа сортировки. Чувствую, что здесь что-то неправильно, но не могу аргументировать в споре.

Неудобно удалять старые данные (если это вообще требуется)

источник

12:40пожаловаться #3

S

Slach in ClickHouse не тормозит

Sergey

Неудобно удалять старые данные (если это вообще требуется)

ну это через TTL можно решить, не обязательно DROP PARTITION делать

источник

12:51пожаловаться #4

K

KiLEX 萊赫 in ClickHouse не тормозит

Mikhail Dengin

Добрый день! Подскажите, насколько правильно использовать не временные поля при партиционировании, а какие-нибудь относительно низкокардинальные поля? При том, что это низкокардинальное поле уже часть ключа сортировки. Чувствую, что здесь что-то неправильно, но не могу аргументировать в споре.

главное чтобы ВСЕ запросы в КХ выбирались по этому ключу.

источник

12:52пожаловаться #5

S

Slach in ClickHouse не тормозит

Mikhail Dengin

Добрый день! Подскажите, насколько правильно использовать не временные поля при партиционировании, а какие-нибудь относительно низкокардинальные поля? При том, что это низкокардинальное поле уже часть ключа сортировки. Чувствую, что здесь что-то неправильно, но не могу аргументировать в споре.

Зависит от задачи

главная цель партиций в том, чтобы у вас были разнесенные на диске наборы данных "не пересекающиеся"
и чтобы в каждой партиции данные из PK были размазаны равномерно
и чтобы куски данных внутри партиций (system.parts) имели на диске нормальный размер чтобы их быстро можно было full scan сделать если что...

то есть определение партиций для сканирования это первый этап

если партиций слишком много (десятки тысяч) а данные вы вставляете все равно "по времени"
то при вставке можете получить ошибку что слишком много мелких партов надо вставить в слишком большое кол-во партиций

источник

12:53пожаловаться #6

MD

Mikhail Dengin in ClickHouse не тормозит

А в ReplacingMergeTree схлопывание происходит в рамках партиции же или по всей таблице при FINAL ?

источник

12:56пожаловаться #7

K

KiLEX 萊赫 in ClickHouse не тормозит

Mikhail Dengin

А в ReplacingMergeTree схлопывание происходит в рамках партиции же или по всей таблице при FINAL ?

в рамках партиции

источник

12:57пожаловаться #8

AS

Alexey Sokolov in ClickHouse не тормозит

Slach

Зависит от задачи

главная цель партиций в том, чтобы у вас были разнесенные на диске наборы данных "не пересекающиеся"
и чтобы в каждой партиции данные из PK были размазаны равномерно
и чтобы куски данных внутри партиций (system.parts) имели на диске нормальный размер чтобы их быстро можно было full scan сделать если что...

то есть определение партиций для сканирования это первый этап

если партиций слишком много (десятки тысяч) а данные вы вставляете все равно "по времени"
то при вставке можете получить ошибку что слишком много мелких партов надо вставить в слишком большое кол-во партиций

"full scan сделать если что" - это если вдруг надо сделать запрос мимо ключа сортировки? Или в каких случаях это ещё надо?

источник

12:59пожаловаться #9

S

Slach in ClickHouse не тормозит

Alexey Sokolov

"full scan сделать если что" - это если вдруг надо сделать запрос мимо ключа сортировки? Или в каких случаях это ещё надо?

ну вот вы делаете запрос по полю которого нет ни в PRIMARY KEY ни в ORDER BY ни в PARTITION BY ...
будут паралельно тогда сканироваться все файлы <имя_колонки.bin> с распаковкой
и с применением SECONDARY INDEX data skip алгоритмом если вдруг вы CREATE INDEX сделали

источник

13:03пожаловаться #10

AS

Alexey Sokolov in ClickHouse не тормозит

Slach

ну вот вы делаете запрос по полю которого нет ни в PRIMARY KEY ни в ORDER BY ни в PARTITION BY ...
будут паралельно тогда сканироваться все файлы <имя_колонки.bin> с распаковкой
и с применением SECONDARY INDEX data skip алгоритмом если вдруг вы CREATE INDEX сделали

Да, это понимаю. Уточнил просто, вдруг есть ещё какие подводные камни.
Спасибо.

источник

13:18пожаловаться #11

DT

Dauletkhan Tulendiye... in ClickHouse не тормозит

Привет ребят,

Я создал таблицу, в которой у меня есть столбцы с некоторыми идентификаторами.
Эти идентификаторы могут быть удалены в основной базе данных mysql, и я должен добавить их для каждого запроса CH в качестве фильтра (предложение NOT IN).
Что я могу использовать для этого хранилища удаленных идентификаторов?
Раз в неделю или месяц я хочу обновить эти удаленные идентификаторы в CH и удалить записи из основной таблицы CH.

признателен за любую помощь, спасибо!

источник

13:22пожаловаться #12

ER

Eduard Rekuts in ClickHouse не тормозит

summingMergeTree
для каждого идентификатора вставлять обратное значение , и они со временем удалятся

источник

13:29пожаловаться #13

S

Slach in ClickHouse не тормозит

Dauletkhan Tulendiyev

Привет ребят,

Я создал таблицу, в которой у меня есть столбцы с некоторыми идентификаторами.
Эти идентификаторы могут быть удалены в основной базе данных mysql, и я должен добавить их для каждого запроса CH в качестве фильтра (предложение NOT IN).
Что я могу использовать для этого хранилища удаленных идентификаторов?
Раз в неделю или месяц я хочу обновить эти удаленные идентификаторы в CH и удалить записи из основной таблицы CH.

признателен за любую помощь, спасибо!

ну на стороне MySQL сделайте отдельную таблицу с этими идентификаторами типа (id, delete_date)
и сделайте на стороне ClickHouse
словарь CREATE DICIONARY с SOURCE MySQL
и выбирайте
SELECT ... FROM db.clickhouse_table WHERE dictGetOrDefault('db.dictionary','delete_date', tuple(id),toDate('0000-00-00')) = toDate('0000-00-00')

а потом через TTL или через мутации удаляйте
ALTER TABLE db.clickhouse_table DELETE WHERE dictGetOrDefault('db.dictionary','delete_date', tuple(id),toDate('0000-00-00')) != toDate('0000-00-00')

источник

13:31пожаловаться #14

S

Slach in ClickHouse не тормозит

Eduard Rekuts

summingMergeTree
для каждого идентификатора вставлять обратное значение , и они со временем удалятся

тоже хороший вариант, можно collapsingMergeTree только

источник

13:31пожаловаться #15

DT

Dauletkhan Tulendiye... in ClickHouse не тормозит

Slach

ну на стороне MySQL сделайте отдельную таблицу с этими идентификаторами типа (id, delete_date)
и сделайте на стороне ClickHouse
словарь CREATE DICIONARY с SOURCE MySQL
и выбирайте
SELECT ... FROM db.clickhouse_table WHERE dictGetOrDefault('db.dictionary','delete_date', tuple(id),toDate('0000-00-00')) = toDate('0000-00-00')

а потом через TTL или через мутации удаляйте
ALTER TABLE db.clickhouse_table DELETE WHERE dictGetOrDefault('db.dictionary','delete_date', tuple(id),toDate('0000-00-00')) != toDate('0000-00-00')

а потом через TTL удаляйте? должен быть калонка с настроенным TTL? или на любую калонку можно присвоить TTL ?

источник

13:43пожаловаться #16

S

Slach in ClickHouse не тормозит

Dauletkhan Tulendiyev

а потом через TTL удаляйте? должен быть калонка с настроенным TTL? или на любую калонку можно присвоить TTL ?

ALTER TABLE ... MODIFY TTL

источник

13:51пожаловаться #17

А

Алексей in ClickHouse не тормозит

Всем привет, есть какое-то решение?

было переименование таблицы
rename table table_name to table_name_old;

запрос упал из-за нехватки на сервере дискового пространства.

теперь получилось так, что файлы в дериктории для таблицы table_name_old есть, а самой таблицы нет.
DB::Exception: Target path already exists: /var/lib/clickhouse/data/db/table_name_old/

нагуглил решение с attach table, но оно не помогло, ошибка

DB::Exception: Table table_name_old doesn't exist

Буду рад любым подсказкам

version 20.4.7.67 (official build)

источник

13:52пожаловаться #18

K

KiLEX 萊赫 in ClickHouse не тормозит

Dauletkhan Tulendiyev

а потом через TTL удаляйте? должен быть калонка с настроенным TTL? или на любую калонку можно присвоить TTL ?

можно на всю таблицу, также дополнительно можно на любые колонки

источник

13:52пожаловаться #19

WK

Wolf Kreuzerkrieg in ClickHouse не тормозит

коллеги, такой вопрос, есть таблица, в ней есть парты, я хочу получить размер на диске только метаданных, т.е. размер парта минус размер всех bin файлов, есть такая возможность?

источник

13:56пожаловаться #20