Телеграмм чат группы clickhouse_ru страница 9596

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ClickHouse не тормозит

5064 membersпожаловаться на группу

2021 March 26

BK

Bogdan Kolesnik in ClickHouse не тормозит

Привет всем, есть какой-то универсальный способ для поиска по тексту? Сейчас разбиваем строку на массив слов и потом hasAll(array, [‘hot, 'dog’]) по нужным словам

источник

20:01пожаловаться #1

N

Nikita Blagodarnyy in ClickHouse не тормозит

Bogdan Kolesnik

Привет всем, есть какой-то универсальный способ для поиска по тексту? Сейчас разбиваем строку на массив слов и потом hasAll(array, [‘hot, 'dog’]) по нужным словам

Есть. Elasticsearch, например.

источник

20:03пожаловаться #2

TG

Tagir Gumerov in ClickHouse не тормозит

Bogdan Kolesnik

Привет всем, есть какой-то универсальный способ для поиска по тексту? Сейчас разбиваем строку на массив слов и потом hasAll(array, [‘hot, 'dog’]) по нужным словам

снаружи проверяете, что в результирующем массиве нет 1, но кх под это не заточен

https://clickhouse.tech/docs/ru/sql-reference/functions/string-search-functions/#multisearchallpositions

clickhouse.tech

Функции поиска в строках | Документация ClickHouse

Функции поиска в строках Во всех функциях, поиск регистрозависимый по умолчанию. Существуют варианты функций для регистр

источник

20:04пожаловаться #3

S

Slach in ClickHouse не тормозит

Nikita Blagodarnyy

root@clickhouse02.dev:/home/nblagodarny# df | grep rdisk2
/dev/mapper/U1574860725I1-rdisk2 3844099096 2811006056 837753368 78% /mount/rdisk2

я имел ввиду это отдельный железный диск? или какой нибудь iscsi \ EBS ?

источник

20:23пожаловаться #4

N

Nikita Blagodarnyy in ClickHouse не тормозит

я имел ввиду это отдельный железный диск? или какой нибудь iscsi \ EBS ?

отдельный железный диск

источник

20:23пожаловаться #5

S

Slach in ClickHouse не тормозит

Bogdan Kolesnik

Привет всем, есть какой-то универсальный способ для поиска по тексту? Сейчас разбиваем строку на массив слов и потом hasAll(array, [‘hot, 'dog’]) по нужным словам

https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/mergetree/#available-types-of-indices
ngram data skip index можно попробовать, но это не полнотекстовый поиск ни разу

clickhouse.tech

MergeTree | ClickHouse Documentation

MergeTree The MergeTree engine and other engines of this family (*MergeTree) are the most robust ClickHouse table engine

источник

20:25пожаловаться #6

S

Slach in ClickHouse не тормозит

Nikita Blagodarnyy

отдельный железный диск

а по второму вопросу? SHOW DATABASES показывает что нибудь с названием tmp ?

источник

20:26пожаловаться #7

N

Nikita Blagodarnyy in ClickHouse не тормозит

а по второму вопросу? SHOW DATABASES показывает что нибудь с названием tmp ?

Да, это база такая.

источник

20:26пожаловаться #8

N

Nikita Blagodarnyy in ClickHouse не тормозит

Nikita Blagodarnyy

Да, это база такая.

test_count - это таблица в ней, как выяснилось

источник

20:27пожаловаться #9

S

Slach in ClickHouse не тормозит

Nikita Blagodarnyy

test_count - это таблица в ней, как выяснилось

ls -la /mount/rdisk2/metadata/tmp/test_count.sql
какого owner показывает?

SHOW CREATE DATABASE tmp;
какой движок показывает?
Atomic или Ordinal?

ну и stacktrace нужен либо из логов возьмите /var/log/clickhouse-server
либо из system.stacktraces поищите

источник

20:34пожаловаться #10

N

Nikita Blagodarnyy in ClickHouse не тормозит

ls -la /mount/rdisk2/metadata/tmp/test_count.sql
какого owner показывает?

SHOW CREATE DATABASE tmp;
какой движок показывает?
Atomic или Ordinal?

ну и stacktrace нужен либо из логов возьмите /var/log/clickhouse-server
либо из system.stacktraces поищите

-rw-r----- 1 clickhouse clickhouse
SHOW выдает ошибку

Code: 76, e.displayText() = DB::ErrnoException: Cannot open file /mount/rdisk2/metadata/tmp.sql, errno: 13, strerror: Permission denied (version 21.3.2.5 (official build))

лог ищу

источник

20:39пожаловаться #11

BK

Bogdan Kolesnik in ClickHouse не тормозит

https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/mergetree/#available-types-of-indices
ngram data skip index можно попробовать, но это не полнотекстовый поиск ни разу

clickhouse.tech

MergeTree | ClickHouse Documentation

MergeTree The MergeTree engine and other engines of this family (*MergeTree) are the most robust ClickHouse table engine

Как раз полнотекстовый не нужен, попробую

источник

23:36пожаловаться #12

2021 March 27

DT

Dmitry Titov in ClickHouse не тормозит

Bogdan Kolesnik

Как раз полнотекстовый не нужен, попробую

https://habr.com/ru/post/304602/

Разрабатываем систему real-time fulltext-поиска по error-логам на основе ClickHouse от Яндекса

В этой статье я расскажу о том, как разработать систему для индексирования и полнотекстового поиска error-логов (или любых других логов) на основе СУБД от Яндекс...

источник

00:17пожаловаться #13

Y

Yuran in ClickHouse не тормозит

https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/mergetree/#available-types-of-indices
ngram data skip index можно попробовать, но это не полнотекстовый поиск ни разу

clickhouse.tech

MergeTree | ClickHouse Documentation

MergeTree The MergeTree engine and other engines of this family (*MergeTree) are the most robust ClickHouse table engine

Я кстати так и не смог найти настройки, с которыми бы ngram индекс бы действительно что-то существенно ускорял для фильтрации текста логов :(. Может у кого-то есть пример?

источник

01:11пожаловаться #14

Y

Yuran in ClickHouse не тормозит

https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/mergetree/#available-types-of-indices
ngram data skip index можно попробовать, но это не полнотекстовый поиск ни разу

clickhouse.tech

MergeTree | ClickHouse Documentation

MergeTree The MergeTree engine and other engines of this family (*MergeTree) are the most robust ClickHouse table engine

Собственно, кажется с Вами я это и обсуждал год назад :). https://m.habr.com/ru/post/512084/comments/#comment_21885266

Разрабатываем самый удобный в мире* интерфейс для просмотра логов

Если Вам приходилось когда-нибудь пользоваться веб-интерфейсами для просмотра логов, то Вы наверняка замечали, насколько, как правило, эти интерфейсы громоздки и (зачастую) не слишком-то удобны и...

источник

01:12пожаловаться #15

DT

Dmitry Titov in ClickHouse не тормозит

Я кстати так и не смог найти настройки, с которыми бы ngram индекс бы действительно что-то существенно ускорял для фильтрации текста логов :(. Может у кого-то есть пример?

Могу себе представить, что для поиска редко встречающихся значений он может подойти

источник

01:13пожаловаться #16

Y

Yuran in ClickHouse не тормозит

Могу себе представить, что для поиска редко встречающихся значений он может подойти

Теоретически — безусловно. Меня лично больше интересуют конкретные настройки, которые подходят для логов :). По ссылке выше я описывал свои варианты, которые пробовал.

источник

01:15пожаловаться #17

Y

Yuran in ClickHouse не тормозит

Теоретически — безусловно. Меня лично больше интересуют конкретные настройки, которые подходят для логов :). По ссылке выше я описывал свои варианты, которые пробовал.

(Я и есть youROCK на хабре, если что :))

источник

01:16пожаловаться #18

A

Anton in ClickHouse не тормозит

Подскажите, что именно я делаю не так.

У меня имеется большая таблица которая обновляется через python скрипт. после обновления данных запускается другой скрипт который считает витрину по этим данным, но я заметил что данные не сразу становятся доступными.

К примеру: мы посчитали что у пользователей из группы А в день Х -> 200 кликов по разным страницам, то лишь спустя N минут эти данные можно будет получить при запросах.

Движок таблицы с которой возникают проблемы - MergeTree

Данные вставляются в таблицу батчами по 50 000 строк в несколько потоков. Потоки бьются по разным источникам чтобы за раз не исчерпывать много оперативы и проще было перезапустить упавшую задачу

В данный момент в таблице более 100 миллионов строк.

Также подобная проблемы была впервые обнаружена пару месяцев назад на старой версии кликхауса. Получилось решать ее при помощи ожидания optimize table final после окончания вставки всех данных.

Скорее всего я делаю что-то не так.

источник

01:25пожаловаться #19

DT

Dmitry Titov in ClickHouse не тормозит

Теоретически — безусловно. Меня лично больше интересуют конкретные настройки, которые подходят для логов :). По ссылке выше я описывал свои варианты, которые пробовал.

Для практики нужен датасет и ограниченных круг хотелок.

источник

01:29пожаловаться #20