Телеграмм чат группы clickhouse

На запросы с LIKE, на запросы на конкретное совпадение и т.д...

21:59пожаловаться #1

Видимо, размер блум-фильтра для отзывов на Amazon надо брать побольше (я использую отзывы для товаров на амазоне (https://s3.amazonaws.com/amazon-reviews-pds/tsv/index.txt) для моделирования «логов» :))

22:00пожаловаться #2

Пока что вижу только такое:

Index body_idx has dropped 0 granules.

То есть, блум-фильтр вообще никак не помогает :)

22:01пожаловаться #3

средняя длина строки в отзывах Амазона — 324 символа. В целом, в дебаг-логах обычно примерно похоже, разве нет?

22:01пожаловаться #4

Пока что вижу только такое:

Index body_idx has dropped 0 granules.

Если дроппед 0 гранулес, только вред от этого индекса

22:02пожаловаться #5

Если дроппед 0 гранулес, только вред от этого индекса

Ну так о чём и речь :)

22:03пожаловаться #6

То есть, блум-фильтр вообще никак не помогает :)

Скип индекс помогает в определенных случаях, когда в блоке можно поскипать данные...

22:04пожаловаться #7

Т.е. есть у этой колонки корреляция с первичным ключем хорошо.

Есть высокая уникальность построчно - тоже можно блумфильтр

22:05пожаловаться #8

Скип индекс помогает в определенных случаях, когда в блоке можно поскипать данные...

У меня было предположение, что индекс по 3граммам позволит ускорить фильтрацию по логам, особенно в случае, когда искомой фразы не содержится в целом блоке

22:07пожаловаться #9

Пока что на датасете из отзывов амазона (которые наверняка имеют не совсем такое же распределение, как в настоящих логах) блум-фильтр на 512 байт на блок из 8196 вообще ничего не дает на различных запросах

22:08пожаловаться #10

Если у кого-то есть открытый датасет настоящих логов с продакшена, которым они готовы поделиться, дайте знать, пожалуйста :)

22:08пожаловаться #11

Кстати говоря, ALTER TABLE amazon MATERIALIZE INDEX для ngrambf_v1 индекса на одну колонку почему-то тоже упирается в одно ядро...

Alex Krash in ClickHouse не тормозит

22:09пожаловаться #12

Кстати говоря, ALTER TABLE amazon MATERIALIZE INDEX для ngrambf_v1 индекса на одну колонку почему-то тоже упирается в одно ядро...

Мутация однопоточная всегда

22:10пожаловаться #13

Вам в эластиксерч

22:11пожаловаться #14

ngrambf_v1(3, 4096, 2, 0) уже намного лучше себя показывает с амазоновскими отзывами: тот же запрос читает теперь 15.5 Гб вместо 23.2. (Index body_idx2 has dropped 4301 granules.)

22:46пожаловаться #15

(до этого был размер блум-фильтра 512 вместо 4096)

22:46пожаловаться #16

Попробую ещё увеличить размер блум-фильтра :)

22:46пожаловаться #17

Наверняка есть какая-то формула для расчета, какого размера нужен блум-фильтр, если известно количество элементов, но мне лень считать, сколько это получится

Anton Zhuravsky in ClickHouse не тормозит

22:47пожаловаться #18

https://hur.st/bloomfilter/ ?

hur.st

Bloom filter calculator

Calculate the optimal size for your bloom filter, see how many items a given filter can hold, or just admire the curvy graphs. Also borrow my MIT licensed Javascript for your own programs.

23:04пожаловаться #19

вы же понимаете что в логах у вас будет не так... ну и это улучшение слишком маленькое, у вас будет много времени потеряно в самом начале при проверке индекса

вообще если вы ищете слова, наверно лучше пробовать tokenbf_v1?

если есть конкретные ключевые слова/паттерны, лучше добавьте bitmap по ним в order-by, скип индекс тогда будет эффективней так как данные с этими словами будут "рядом"