Size: a a a

ClickHouse не тормозит

2021 March 26

BK

Bogdan Kolesnik in ClickHouse не тормозит
Привет всем, есть какой-то универсальный способ для поиска по тексту? Сейчас разбиваем строку на массив слов и потом hasAll(array, [‘hot, 'dog’]) по нужным словам
источник

N

Nikita Blagodarnyy in ClickHouse не тормозит
Bogdan Kolesnik
Привет всем, есть какой-то универсальный способ для поиска по тексту? Сейчас разбиваем строку на массив слов и потом hasAll(array, [‘hot, 'dog’]) по нужным словам
Есть. Elasticsearch, например.
источник

TG

Tagir Gumerov in ClickHouse не тормозит
Bogdan Kolesnik
Привет всем, есть какой-то универсальный способ для поиска по тексту? Сейчас разбиваем строку на массив слов и потом hasAll(array, [‘hot, 'dog’]) по нужным словам
снаружи проверяете, что в результирующем массиве нет 1, но кх под это не заточен

https://clickhouse.tech/docs/ru/sql-reference/functions/string-search-functions/#multisearchallpositions
источник

S

Slach in ClickHouse не тормозит
Nikita Blagodarnyy
root@clickhouse02.dev:/home/nblagodarny# df | grep rdisk2
/dev/mapper/U1574860725I1-rdisk2 3844099096 2811006056 837753368  78% /mount/rdisk2
я имел ввиду это отдельный железный диск? или какой нибудь iscsi \ EBS ?
источник

N

Nikita Blagodarnyy in ClickHouse не тормозит
Slach
я имел ввиду это отдельный железный диск? или какой нибудь iscsi \ EBS ?
отдельный железный диск
источник

S

Slach in ClickHouse не тормозит
Bogdan Kolesnik
Привет всем, есть какой-то универсальный способ для поиска по тексту? Сейчас разбиваем строку на массив слов и потом hasAll(array, [‘hot, 'dog’]) по нужным словам
https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/mergetree/#available-types-of-indices
ngram data skip index можно попробовать, но это не полнотекстовый поиск ни разу
источник

S

Slach in ClickHouse не тормозит
Nikita Blagodarnyy
отдельный железный диск
а по второму вопросу? SHOW DATABASES показывает что нибудь с названием tmp ?
источник

N

Nikita Blagodarnyy in ClickHouse не тормозит
Slach
а по второму вопросу? SHOW DATABASES показывает что нибудь с названием tmp ?
Да, это база такая.
источник

N

Nikita Blagodarnyy in ClickHouse не тормозит
Nikita Blagodarnyy
Да, это база такая.
test_count - это таблица в ней, как выяснилось
источник

S

Slach in ClickHouse не тормозит
Nikita Blagodarnyy
test_count - это таблица в ней, как выяснилось
ls -la /mount/rdisk2/metadata/tmp/test_count.sql
какого owner показывает?

SHOW CREATE DATABASE  tmp;
какой движок показывает?
Atomic или Ordinal?

ну и stacktrace нужен либо из логов возьмите /var/log/clickhouse-server
либо из system.stacktraces поищите
источник

N

Nikita Blagodarnyy in ClickHouse не тормозит
Slach
ls -la /mount/rdisk2/metadata/tmp/test_count.sql
какого owner показывает?

SHOW CREATE DATABASE  tmp;
какой движок показывает?
Atomic или Ordinal?

ну и stacktrace нужен либо из логов возьмите /var/log/clickhouse-server
либо из system.stacktraces поищите
-rw-r----- 1 clickhouse clickhouse
SHOW выдает ошибку

Code: 76, e.displayText() = DB::ErrnoException: Cannot open file /mount/rdisk2/metadata/tmp.sql, errno: 13, strerror: Permission denied (version 21.3.2.5 (official build))

лог ищу
источник

BK

Bogdan Kolesnik in ClickHouse не тормозит
Как раз полнотекстовый не нужен, попробую
источник
2021 March 27

DT

Dmitry Titov in ClickHouse не тормозит
Bogdan Kolesnik
Как раз полнотекстовый не нужен, попробую
источник

Y

Yuran in ClickHouse не тормозит
Я кстати так и не смог найти настройки, с которыми бы ngram индекс бы действительно что-то существенно ускорял для фильтрации текста логов :(. Может у кого-то есть пример?
источник

Y

Yuran in ClickHouse не тормозит
Собственно, кажется с Вами я это и обсуждал год назад :). https://m.habr.com/ru/post/512084/comments/#comment_21885266
источник

DT

Dmitry Titov in ClickHouse не тормозит
Yuran
Я кстати так и не смог найти настройки, с которыми бы ngram индекс бы действительно что-то существенно ускорял для фильтрации текста логов :(. Может у кого-то есть пример?
Могу себе представить, что для поиска редко встречающихся значений он может подойти
источник

Y

Yuran in ClickHouse не тормозит
Dmitry Titov
Могу себе представить, что для поиска редко встречающихся значений он может подойти
Теоретически — безусловно. Меня лично больше интересуют конкретные настройки, которые подходят для логов :). По ссылке выше я описывал свои варианты, которые пробовал.
источник

Y

Yuran in ClickHouse не тормозит
Yuran
Теоретически — безусловно. Меня лично больше интересуют конкретные настройки, которые подходят для логов :). По ссылке выше я описывал свои варианты, которые пробовал.
(Я и есть youROCK на хабре, если что :))
источник

A

Anton in ClickHouse не тормозит
Подскажите, что именно я делаю не так.

У меня имеется большая таблица которая обновляется через python скрипт. после обновления данных запускается другой скрипт который считает витрину по этим данным, но я заметил что данные не сразу становятся доступными.

К примеру: мы посчитали что у пользователей из группы А в день Х -> 200 кликов по разным страницам, то лишь спустя N минут эти данные можно будет получить при запросах.

Движок таблицы с которой возникают проблемы - MergeTree

Данные вставляются в таблицу батчами по 50 000 строк в несколько потоков. Потоки бьются по разным источникам чтобы за раз не исчерпывать много оперативы и проще было перезапустить упавшую задачу

В данный момент в таблице более 100 миллионов строк.

Также подобная проблемы была впервые обнаружена пару месяцев назад на старой версии кликхауса. Получилось решать ее при помощи ожидания optimize table final после окончания вставки всех данных.

Скорее всего я делаю что-то не так.
источник

DT

Dmitry Titov in ClickHouse не тормозит
Yuran
Теоретически — безусловно. Меня лично больше интересуют конкретные настройки, которые подходят для логов :). По ссылке выше я описывал свои варианты, которые пробовал.
Для практики нужен датасет и ограниченных круг хотелок.
источник