Телеграмм чат группы clickhouse

примерно?

Екатерина in ClickHouse не тормозит

14:20пожаловаться #1

Е

Denny Crane (I don't work at Yandex (never did))

Словари такого размера очень много кушают памяти (ОЧЕНЬ МНОГО ПАМЯТИ) и очень медленно перегружаются.

Я полностью дублирую таблицы которые надо джойнить на все шарды. Чтобы джойнить локально ничего не скачивая, и шарды параллельно обрабатывали левую таблицу и группировали и отсылали на инициатор маленькие результаты.

Когда будет доступен merge Join все ускорится если правая таблица отсортирована по ключу джойна.

здравствуйте, можно вопрос, я правильно понимаю, что если какую-то таблицу небольшую, которую надо джойнить делать на каждом шарде, делать поверх шардированных таблиц Distributed таблица, то сервер без дополнительных ухищрений с моей стороны, при джойне левой distributed таблицы и правой distributed таблицы, которая есть на каждом шарде, будет делать на каждом шарде, и потом объединит результаты, а вот если правая таблиц только на одном шарде, то для левой таблицы он потащить на один шард все данные левой таблицы и джойнит там? Группировку данных он тоже будет делать на шардах, если правая таблица есть на всех шардах?

14:21пожаловаться #2

DT

Yuri Alexandrovich

Yuri Alexandrovich, [31.05.20 21:13]
можно ли как-нибудь узнать сколько будут весить данные, которые отдаются КХ по запросу?

скорее всего нет, кликхаус буферизует кусочек данных и сразу их отправляет, но в http он передает некие хедеры о состоянии запроса, возможно что то вам там будет интересно

Yuri Alexandrovich in ClickHouse не тормозит

14:21пожаловаться #3

YA

спасибо

14:22пожаловаться #4

D

Dmitry Titov

сколько у вас юников?

40kk при условии наличия ~20-30% данных

14:22пожаловаться #5

D

потенциально их может стать 1лярд

14:22пожаловаться #6

D

а раз в час не более 400к - 1кк уников

14:23пожаловаться #7

DT

можно сделать так
FROM table
WHERE cityHash64(field1, field2, field3) % 1000000 = 0
group by field1, field2, field3

14:23пожаловаться #8

DT

и так все пробегать 0-1-2-3-4-999999, это должно быть быстрее чем делать лимит каждый раз

14:24пожаловаться #9

DT

либо можно один раз посчитать весь запрос и выгрузить в временную таблицу и уже по ней бегать лимитом

14:24пожаловаться #10

D

Dmitry Titov

либо можно один раз посчитать весь запрос и выгрузить в временную таблицу и уже по ней бегать лимитом

вот в этом и была задумка ))

Denny Crane (I don't... in ClickHouse не тормозит

14:25пожаловаться #11

DC

Екатерина

здравствуйте, можно вопрос, я правильно понимаю, что если какую-то таблицу небольшую, которую надо джойнить делать на каждом шарде, делать поверх шардированных таблиц Distributed таблица, то сервер без дополнительных ухищрений с моей стороны, при джойне левой distributed таблицы и правой distributed таблицы, которая есть на каждом шарде, будет делать на каждом шарде, и потом объединит результаты, а вот если правая таблиц только на одном шарде, то для левой таблицы он потащить на один шард все данные левой таблицы и джойнит там? Группировку данных он тоже будет делать на шардах, если правая таблица есть на всех шардах?

Можно написать global join тогда правую таблицу разошлет

14:25пожаловаться #12

DT

ну временную таблицу вы можете и руками создавать, транкейтить и тд.
не используя механизм mat view