Телеграмм чат группы clickhouse

21:18пожаловаться #1

DC

Anton Zhuravsky

А можно пояснение или пинок в сторону документации с пояснениями?

индекса как такого нет, нельзя узнать в каком парте, в какой грануле, в какой строке хранится значение col=345645674567567

skip индекс хранится в парте КХ , например можно сделать индекс bloom_filter ,
в каждом парте будет лежать огромный blob = 10 МБ , который будет отвечать почти всегда: "да тут есть в парте 345645674567567" (у блум фильтра большой false positive).
потом будет переход в колонку и поиск там 345645674567567, там конечно нету 345645674567567,
в итоге все работает медленее чем без индекса.

min_max работать не будет, потому что в каждом парте будет примерно min = минус_бесконечность, max = плюс_бесконечность, поэтому 345645674567567 попадает в этот диапазон

set тем более не работает, это тоже самое что колонку еще раз положить в парт.

Anton Zhuravsky in ClickHouse не тормозит

21:18пожаловаться #2

AZ

индекса как такого нет, нельзя узнать в каком парте, в какой грануле, в какой строке хранится значение col=345645674567567

skip индекс хранится в парте КХ , например можно сделать индекс bloom_filter ,
в каждом парте будет лежать огромный blob = 10 МБ , который будет отвечать почти всегда: "да тут есть в парте 345645674567567" (у блум фильтра большой false positive).
потом будет переход в колонку и поиск там 345645674567567, там конечно нету 345645674567567,
в итоге все работает медленее чем без индекса.

min_max работать не будет, потому что в каждом парте будет примерно min = минус_бесконечность, max = плюс_бесконечность, поэтому 345645674567567 попадает в этот диапазон

set тем более не работает, это тоже самое что колонку еще раз положить в парт.

А какие объекты индекс «скипает»? Парты целиком?

21:23пожаловаться #3

DC

Aleksey Studnev ( bitquery.io )

Привет! Кто то наверно знает… clickhouse replication encrypted или нет?

нет, но можно <interserver_https_port>9010</interserver_https_port>

21:24пожаловаться #4

DC

Anton Zhuravsky

А какие объекты индекс «скипает»? Парты целиком?

гранулы основного индекса, skip индекс покрывает одну или несколько гранул основного индекса (задается при создании)

для поиска каких-то рандомных значений размазанных по столбцу вообще не работает

21:25пожаловаться #5

AR

Добрый вечер, интегрировал ли кто-нибудь apache pulsar и КХ? Вижу что часто есть нюансы с кафкой, а как с пульсаром обстоят дела?

21:26пожаловаться #6

DC

Добрый вечер, интегрировал ли кто-нибудь apache pulsar и КХ? Вижу что часто есть нюансы с кафкой, а как с пульсаром обстоят дела?

никак

21:26пожаловаться #7

AR

никак

Никак в смысле все плохо?

Anton Zhuravsky in ClickHouse не тормозит

21:28пожаловаться #8

AZ

гранулы основного индекса, skip индекс покрывает одну или несколько гранул основного индекса (задается при создании)

для поиска каких-то рандомных значений размазанных по столбцу вообще не работает

Ну так гранулы уже не так плохо. Есть ощущение, что при правильно подобранных параметрах того же блума все же можно получить выигрыш (ну грубо прочитать пару лишних false positive гранул может быть выгоднее, чем фигачить фулкан по колонке)

21:29пожаловаться #9

DC

Roadmap 2021 (discussion) · Issue #17623 · ClickHouse/ClickHouse

Никак в смысле все плохо?

https://github.com/ClickHouse/ClickHouse/issues/17623#issuecomment-765009799

> are there any plans to integrate an apache pulsar consumer?

It's not in our roadmap and not planned for my team. The implementation is up to community. As we have Kafka and RabbitMQ, adding Pulsar should not be hard. If a pull request will come, we will help making it production ready and merging.

GitHub

This is an early draft of ClickHouse roadmap 2021. Descriptions and links to be filled. It will be published in documentation in December. Main tasks Provide alternative for ZooKeeper Implementatio...

21:29пожаловаться #10

DC

Anton Zhuravsky

Ну так гранулы уже не так плохо. Есть ощущение, что при правильно подобранных параметрах того же блума все же можно получить выигрыш (ну грубо прочитать пару лишних false positive гранул может быть выгоднее, чем фигачить фулкан по колонке)

блум просто писец насколько тяжелый в размере и в cpu нужном для вычисления, в 99% дешевле всю колонку просканировать

21:30пожаловаться #11

AR

Roadmap 2021 (discussion) · Issue #17623 · ClickHouse/ClickHouse

https://github.com/ClickHouse/ClickHouse/issues/17623#issuecomment-765009799

> are there any plans to integrate an apache pulsar consumer?

It's not in our roadmap and not planned for my team. The implementation is up to community. As we have Kafka and RabbitMQ, adding Pulsar should not be hard. If a pull request will come, we will help making it production ready and merging.

GitHub

This is an early draft of ClickHouse roadmap 2021. Descriptions and links to be filled. It will be published in documentation in December. Main tasks Provide alternative for ZooKeeper Implementatio...

Хм, у пульсара просто есть jdbc коннектор к КХ.

21:31пожаловаться #12

DC

Хм, у пульсара просто есть jdbc коннектор к КХ.

про это не знаю.

21:34пожаловаться #13

2021 January 26

DC

не знал 🙁
смешное совпадение, уже знаю, компилирую pulsar с clickhouse4j

KiLEX 萊赫 in ClickHouse не тормозит

03:05пожаловаться #14

K

Alex Zelensky

Друзья, мало опыта у нас и инфы в интернете, поэтому пишу сюда.

Как можно ускорить простой запрос и можно ли вообще:
SELECT * FROM transactions WHERE clickid='74af6c278b79a7bcbe18aaa3725cdece'

КХ на одной машине (с коробки, не тюнили), MergeTree, clickid типа FixedString(32), в индекс не добавлено (есть более приоритетные поля для индекса),

результат: 0.15 sec.| 5,521,409 rows.| 175 MB

Куда можно покопать?

Партиционирование по хешу от ид, разве что. Отключить кастомные кодеки сжатия для колонки кликид. Ну и селектить * из клика как обычно плохая идея.

06:23пожаловаться #15

TA

Talgat Alikparov in ClickHouse не тормозит

Приветствую всех!
Подскажите, есть ли возможность записи значений из кафки, если сообщение представляет собой массив объектов? Например: {"ver":2, "type":1, "data":[{"V":0, "T":276768733,"Q":192}, {"V":1, "T":276768733,"Q":192}]}
В таблице у меня 3 столбца: V, T и Q. Как извлечь данные из поля data и раскидать по полям?

07:13пожаловаться #16

DC

жить намного проще если писать в кафку в том формате что ожидает КХ.

но если любите извращения https://gist.github.com/den-crane/0234008c17dd29716756b7954308614a

07:17пожаловаться #17

AR

не знал 🙁
смешное совпадение, уже знаю, компилирую pulsar с clickhouse4j

Интересно какой у вас будет с ним опыт, мне в ближайшее время предстоит подружить КХ с пульсаром и немного смущает отсутствие хоть каких-то отзывов об этом - или все хорошо, или так почти никто не делал. Что меня смущает - в конфигурации есть batch size, но нет никакого таймаута, и как бы он не начал писать один батч за другим при интенсивном потоке данных

Slach in ClickHouse не тормозит

07:25пожаловаться #18

S

Интересно какой у вас будет с ним опыт, мне в ближайшее время предстоит подружить КХ с пульсаром и немного смущает отсутствие хоть каких-то отзывов об этом - или все хорошо, или так почти никто не делал. Что меня смущает - в конфигурации есть batch size, но нет никакого таймаута, и как бы он не начал писать один батч за другим при интенсивном потоке данных

в этом чате IMHO так никто еще не делал

KiLEX 萊赫 in ClickHouse не тормозит

07:32пожаловаться #19

K

Slach

в этом чате IMHO так никто еще не делал

писал на го консьюмер для RabbitMQ чтобы бачами скидывать сообщения в клик. (на тот момент в кх движка для реббита еще не было)
ничего сложного, работает на пределе производительности реббита.
Уверен для пульсара с достаточным опытом его эксплуатации - не будет никаких проблем написать подобную прослойку