Size: a a a

ClickHouse не тормозит

2021 January 25

pk

papa karlo in ClickHouse не тормозит
Anton Zhuravsky
А можно пояснение или пинок в сторону документации с пояснениями?
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Anton Zhuravsky
А можно пояснение или пинок в сторону документации с пояснениями?
индекса как такого нет, нельзя узнать в каком парте, в какой грануле, в какой строке хранится значение col=345645674567567

skip индекс хранится в парте КХ , например можно сделать индекс bloom_filter ,
в каждом парте будет лежать огромный blob = 10 МБ , который будет отвечать почти всегда: "да тут есть в парте 345645674567567" (у блум фильтра большой false positive).
потом будет переход в колонку и поиск там 345645674567567, там конечно нету 345645674567567,
в итоге все работает медленее чем без индекса.

min_max работать не будет, потому что в каждом парте будет примерно min = минус_бесконечность, max = плюс_бесконечность, поэтому 345645674567567 попадает в этот диапазон

set тем более не работает, это тоже самое что колонку еще раз положить в парт.
источник

AZ

Anton Zhuravsky in ClickHouse не тормозит
Denny Crane [not a Yandex bot]
индекса как такого нет, нельзя узнать в каком парте, в какой грануле, в какой строке хранится значение col=345645674567567

skip индекс хранится в парте КХ , например можно сделать индекс bloom_filter ,
в каждом парте будет лежать огромный blob = 10 МБ , который будет отвечать почти всегда: "да тут есть в парте 345645674567567" (у блум фильтра большой false positive).
потом будет переход в колонку и поиск там 345645674567567, там конечно нету 345645674567567,
в итоге все работает медленее чем без индекса.

min_max работать не будет, потому что в каждом парте будет примерно min = минус_бесконечность, max = плюс_бесконечность, поэтому 345645674567567 попадает в этот диапазон

set тем более не работает, это тоже самое что колонку еще раз положить в парт.
А какие объекты индекс «скипает»? Парты целиком?
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Aleksey Studnev ( bitquery.io )
Привет! Кто то наверно знает… clickhouse replication encrypted или нет?
нет, но можно <interserver_https_port>9010</interserver_https_port>
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Anton Zhuravsky
А какие объекты индекс «скипает»? Парты целиком?
гранулы основного индекса, skip индекс покрывает одну или несколько гранул основного индекса (задается при создании)

для поиска каких-то рандомных значений размазанных по столбцу вообще не работает
источник

AR

Andrii R in ClickHouse не тормозит
Добрый вечер, интегрировал ли кто-нибудь apache pulsar и КХ? Вижу что часто есть нюансы с кафкой, а как с пульсаром обстоят дела?
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Andrii R
Добрый вечер, интегрировал ли кто-нибудь apache pulsar и КХ? Вижу что часто есть нюансы с кафкой, а как с пульсаром обстоят дела?
никак
источник

AR

Andrii R in ClickHouse не тормозит
Никак в смысле все плохо?
источник

AZ

Anton Zhuravsky in ClickHouse не тормозит
Denny Crane [not a Yandex bot]
гранулы основного индекса, skip индекс покрывает одну или несколько гранул основного индекса (задается при создании)

для поиска каких-то рандомных значений размазанных по столбцу вообще не работает
Ну так гранулы уже не так плохо. Есть ощущение, что при правильно подобранных параметрах того же блума все же можно получить выигрыш (ну грубо прочитать пару лишних false positive гранул может быть выгоднее, чем фигачить фулкан по колонке)
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Andrii R
Никак в смысле все плохо?
https://github.com/ClickHouse/ClickHouse/issues/17623#issuecomment-765009799



>   are there any plans to integrate an apache pulsar consumer?

It's not in our roadmap and not planned for my team. The implementation is up to community. As we have Kafka and RabbitMQ, adding Pulsar should not be hard. If a pull request will come, we will help making it production ready and merging.
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Anton Zhuravsky
Ну так гранулы уже не так плохо. Есть ощущение, что при правильно подобранных параметрах того же блума все же можно получить выигрыш (ну грубо прочитать пару лишних false positive гранул может быть выгоднее, чем фигачить фулкан по колонке)
блум просто писец насколько тяжелый в размере и в cpu нужном для вычисления, в 99% дешевле всю колонку просканировать
источник

AR

Andrii R in ClickHouse не тормозит
Denny Crane [not a Yandex bot]
https://github.com/ClickHouse/ClickHouse/issues/17623#issuecomment-765009799



>   are there any plans to integrate an apache pulsar consumer?

It's not in our roadmap and not planned for my team. The implementation is up to community. As we have Kafka and RabbitMQ, adding Pulsar should not be hard. If a pull request will come, we will help making it production ready and merging.
Хм, у пульсара просто есть jdbc  коннектор к КХ.
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Andrii R
Хм, у пульсара просто есть jdbc  коннектор к КХ.
про это не знаю.
источник
2021 January 26

DC

Denny Crane [not a Y... in ClickHouse не тормозит
не знал 🙁
смешное совпадение, уже знаю, компилирую pulsar с clickhouse4j
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
Alex Zelensky
Друзья, мало опыта у нас и инфы в интернете, поэтому пишу сюда.

Как можно ускорить простой запрос и можно ли вообще:
SELECT * FROM transactions WHERE clickid='74af6c278b79a7bcbe18aaa3725cdece'

КХ на одной машине (с коробки, не тюнили), MergeTree, clickid типа FixedString(32), в индекс не добавлено (есть более приоритетные поля для индекса),

результат: 0.15 sec.| 5,521,409 rows.| 175 MB

Куда можно покопать?
Партиционирование по хешу от ид, разве что. Отключить кастомные кодеки сжатия для колонки кликид. Ну и селектить * из клика как обычно плохая идея.
источник

TA

Talgat Alikparov in ClickHouse не тормозит
Приветствую всех!
Подскажите, есть ли возможность записи значений из кафки, если сообщение представляет собой массив объектов? Например: {"ver":2, "type":1, "data":[{"V":0, "T":276768733,"Q":192}, {"V":1, "T":276768733,"Q":192}]}
В таблице у меня 3 столбца: V, T и Q. Как извлечь данные из поля data и раскидать по полям?
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
жить намного проще если писать в кафку в том формате что ожидает КХ.

но если любите извращения https://gist.github.com/den-crane/0234008c17dd29716756b7954308614a
источник

AR

Andrii R in ClickHouse не тормозит
Denny Crane [not a Yandex bot]
не знал 🙁
смешное совпадение, уже знаю, компилирую pulsar с clickhouse4j
Интересно какой у вас будет с ним опыт, мне в ближайшее время предстоит подружить КХ с пульсаром и немного смущает отсутствие хоть каких-то отзывов об этом - или все хорошо, или так почти никто не делал. Что меня смущает - в конфигурации есть batch size, но нет никакого таймаута, и как бы он не начал писать один батч за другим при интенсивном потоке данных
источник

S

Slach in ClickHouse не тормозит
Andrii R
Интересно какой у вас будет с ним опыт, мне в ближайшее время предстоит подружить КХ с пульсаром и немного смущает отсутствие хоть каких-то отзывов об этом - или все хорошо, или так почти никто не делал. Что меня смущает - в конфигурации есть batch size, но нет никакого таймаута, и как бы он не начал писать один батч за другим при интенсивном потоке данных
в этом чате IMHO так никто еще не делал
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
Slach
в этом чате IMHO так никто еще не делал
писал на го консьюмер для RabbitMQ чтобы бачами скидывать сообщения в клик. (на тот момент в кх движка для реббита еще не было)
ничего сложного, работает на пределе производительности реббита.
Уверен для пульсара с достаточным опытом его эксплуатации - не будет никаких проблем написать подобную прослойку
источник