Y
вообще если вы ищете слова, наверно лучше пробовать tokenbf_v1?
если есть конкретные ключевые слова/паттерны, лучше добавьте bitmap по ним в order-by, скип индекс тогда будет эффективней так как данные с этими словами будут "рядом"
Size: a a a
Y
D
Y
Y
Y
Y
DC
Y
Y
IA
Y
ngrambf_v1(3, 524288, 2, 0)
и теперь действительно ClickHouse ощутимое время тратит на предварительную фильтрацию блоков (около 5 секунд на моём датасете, тогда как сканирование всей таблицы занимает около 100 секунд), но всё равно на множестве (реалистичных) запросов фильтрует от силы половину записей. Экспериментировать с tokenbf пока нет желания, но в целом, по крайней мере, я выяснил, что ngrambf_v1(3, 16384, 2, 0)
дает результат не сильно хуже, почти не имеет оверхеда, и в среднем позволяет пропускать ~50% блоков, что тоже неплохо (опять же, повторюсь, на датасете из отзывов на амазоне).D
ngrambf_v1(3, 524288, 2, 0)
и теперь действительно ClickHouse ощутимое время тратит на предварительную фильтрацию блоков (около 5 секунд на моём датасете, тогда как сканирование всей таблицы занимает около 100 секунд), но всё равно на множестве (реалистичных) запросов фильтрует от силы половину записей. Экспериментировать с tokenbf пока нет желания, но в целом, по крайней мере, я выяснил, что ngrambf_v1(3, 16384, 2, 0)
дает результат не сильно хуже, почти не имеет оверхеда, и в среднем позволяет пропускать ~50% блоков, что тоже неплохо (опять же, повторюсь, на датасете из отзывов на амазоне).AK
Y
AK
Y
SC
Y
SC
Y