Size: a a a

ClickHouse не тормозит

2020 June 21

AP

Abi Palagashvili in ClickHouse не тормозит
Dj
да, например таблицы
table1: partitionkey(date) pk datetime, customer
table2: partitionkey(date) pk datetime, customer, order


table2 join table1 using
(date, customer)

будет браться первый сет партишнов из table1 -> hash build -> hash probe из первого партишн table2 в зависимости от памяти (доступной и требуемой)
И так для каждой партиции?Смотрится прикольно
источник

D

Dj in ClickHouse не тормозит
Abi Palagashvili
И так для каждой партиции?Смотрится прикольно
ну, там обычно не одна партиуция, а бакет, в зависимости от памяти и "статистики" и количества воркеров/слейвов
источник

D

Dj in ClickHouse не тормозит
но суть в том, что если запрос подобного рода, можно очень серьезно не насиловать память и джойнить чуть ли не бесконечные сеты факт таблиц без проблем
источник

D

Dj in ClickHouse не тормозит
Dmitry Titov
А UNION интересно как работает по очереди?
нипонил...
источник

DT

Dmitry Titov in ClickHouse не тормозит
table1 part1 JOIN table2 part1
UNION
table1 part2 JOIN table2 part2
UNION
table1 part3 JOIN table2 part3
источник

D

Dj in ClickHouse не тормозит
Dmitry Titov
table1 part1 JOIN table2 part1
UNION
table1 part2 JOIN table2 part2
UNION
table1 part3 JOIN table2 part3
опять не понял. у вас запрос уже partition-wise сам по себе
источник

DT

Dmitry Titov in ClickHouse не тормозит
Dj
опять не понял. у вас запрос уже partition-wise сам по себе
Ну, я к тому, что уже сейчас можно разделить запрос на партиции и джойнить так, если union по очереди будет выполнятся, то и памяти жрать будет меньше
источник

D

Dj in ClickHouse не тормозит
Dmitry Titov
Ну, я к тому, что уже сейчас можно разделить запрос на партиции и джойнить так, если union по очереди будет выполнятся, то и памяти жрать будет меньше
ну да, можно так писать по дням и прокидывать UNION ALL между ними, вынести логику в приложение. НО:
1. я не уверен, что они выполняются по очереди в КХ. Нигде не прописано.
Т.е. "это не точно".
2. это мягко говоря - изврат. Например: 30 дней-партиций, или 30 дней по 10 партиций каждая - запросы будут оооочень длинными. Может быть логично делать по 10 партиций за раз. Может быть логично делать 4 потока на билд, 4 на проб фазу Хешджойна. А может по 8. А может по 1.
3. Пользователь не знает сколько данных в партициях и какой там skew/min/max.
4. Сложно все это на приложении сделать и порождает вопросы ("почему шеф сволочь заставляет нас писать под КХ" и придется обновлять резюме ).
Проще взять другую базу... ну или варп опять таки =)
источник

AT

Al T in ClickHouse не тормозит
когда полетите на варпе, скажите там что я хотел read-реплики скейлить как вчера...
источник

AT

Al T in ClickHouse не тормозит
пусть там пошаманят
источник

D

Dj in ClickHouse не тормозит
Al T
когда полетите на варпе, скажите там что я хотел read-реплики скейлить как вчера...
источник

AT

Al T in ClickHouse не тормозит
утром деньги - вечером стулья :)
источник

AT

Al T in ClickHouse не тормозит
у нас тут кстати много таких ребят, но вроде за деньги не спрашивают пока ))
источник

D

Dj in ClickHouse не тормозит
Al T
утром деньги - вечером стулья :)
Месье, же не манж па сис жур!
источник

D

Dj in ClickHouse не тормозит
Al T
у нас тут кстати много таких ребят, но вроде за деньги не спрашивают пока ))
тех кто хотят скейлить рид реплики? или тех кто понаделали варп двигателей и летают в прошлое пилить фичи?
источник

AT

Al T in ClickHouse не тормозит
тех которые выглядят точь-в-точь как на вашей картинке
источник

AT

Al T in ClickHouse не тормозит
не уверен что они по репликам, но тору думаю знают на зубок
источник

D

Dj in ClickHouse не тормозит
ну суть была не в национальности совсем, а в том, что ваш запрос - выглядит как ну оооочень специфичный, и словами выражается как - "а реально ли так надо делать из классического shared-nothing решения, то что вы предлагаете (названия вашему гибриду пока не придумано вроде)".
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
Кх часто упирается в скорость диска, смысл нагружать диск двумя кх?
источник

AT

Al T in ClickHouse не тормозит
так как я хотел работает например amazon aurora. поэтому там рид-реплики создаются очень быстро (но они кстати вроде как заморочились и написали свою виртуальную файловую систему на базе NvME)  Я правда не сам это придумал...
источник