Телеграмм чат группы clickhouse

Есть самописная DMP для внутренних нужд компании и сейчас стоит задача по формированию аттрибутов профилй. Решили взять кх для сборки и обработки сырых данных ( опыта в этом большого нет). В сырые данные сохраняются title и url запросов и куча других полей. Пока работа идет с title и url полями, по ним формируются правила примера если title содержит "нужный текст" то такой запрос относится к аттрибуту под id 400 ( к примеру). Получается по факту пример запроса такой

select uid, positionCaseInsensitiveUTF8(ref, 'https://example.ru') != 0  OR positionCaseInsensitiveUTF8(title, 'Кулинария') != 0  OR positionCaseInsensitiveUTF8(title, 'Рецепт этого блюда') != 0 OR positionCaseInsensitiveUTF8(title, 'Кулинарный рецепт') != 0 as "440" from raw_data where "440" = 1;

источник

11:57пожаловаться #4

ДА

Давид Авагимян... in ClickHouse не тормозит

Там запрос иногда из 20-30 аттрибутов по 50-60 блоков OR каждый), данные в кх обрабатываются за пол года. их там порядка 200-300 миллиардов записей.

источник

11:58пожаловаться #5

ЕГ

Евгений Гаврюшин... in ClickHouse не тормозит

Здравствуйте!
Создали таблицу с полем типа DateTime без указания timezone; timezone, похоже, выставился автоматически Europe/Moscow. Заполнять это поле начали (по ошибке) датой UTC, то есть получили событие в 13:00 по московскому времени, превратили это время в UTC, то есть 10:00, и записали в поле DateTime. В итоге, как я понял из доки, которая говорит о том, что не важно, какая timezone указана для поля, все равно в недрах всё хранится в UTC (ну и как я вижу исходя из запросов), на самом деле в таблице сохранилось время 07:00 (это наблюдается при запросах, где пытаюсь выгрузить данные за определенные промежутки времени).
Engine таблицы – ReplicatedMergeTree
Каким образом корректно исправить эту проблему? Изменить тип стобца с DateTime('Europe/Moscow') на DateTime('Europe/London'), а затем обновить все значения этого поля, чтобы привести их к корректным?

источник

12:00пожаловаться #6

K

KirillReal in ClickHouse не тормозит

Добрый день, а если я хочу потоково читать из двух кафок с разными топиками, можно это как-то сделать?

я пробывал вот так, вбить адреса кафок и задать названия топиков:

create table test_kafka (
id UInt64
) ENGINE = Kafka('kafka-1:9092’, ’kafka-2:9092’ , ‘topic_1, topic_2', 'group1', 'JSONEachRow’);

но так не работает 🙁
Кажется, потому что в kafka-1 нет topic_2 и в kafka-2 нет topic_1

Делаю такой вывод, так как по отдельности все работает:

create table test_kafka (
id UInt64
) ENGINE = Kafka('kafka-1:9092’, ‘topic_1', 'group1', 'JSONEachRow’);

create table test_kafka (
id UInt64
) ENGINE = Kafka(‘kafka-2:9092’, ‘topic_2', 'group1', 'JSONEachRow’);

источник

12:04пожаловаться #7

M

Mishanya in ClickHouse не тормозит

KirillReal

Добрый день, а если я хочу потоково читать из двух кафок с разными топиками, можно это как-то сделать?

я пробывал вот так, вбить адреса кафок и задать названия топиков:

create table test_kafka (
id UInt64
) ENGINE = Kafka('kafka-1:9092’, ’kafka-2:9092’ , ‘topic_1, topic_2', 'group1', 'JSONEachRow’);

но так не работает 🙁
Кажется, потому что в kafka-1 нет topic_2 и в kafka-2 нет topic_1

Делаю такой вывод, так как по отдельности все работает:

create table test_kafka (
id UInt64
) ENGINE = Kafka('kafka-1:9092’, ‘topic_1', 'group1', 'JSONEachRow’);

create table test_kafka (
id UInt64
) ENGINE = Kafka(‘kafka-2:9092’, ‘topic_2', 'group1', 'JSONEachRow’);

я думаю, что нужно создавать две таблицы с разными коннекшенами
так будет более верно на мой взгляд, тк если чето упадет на первой, то весь консюм не стопнется

источник

12:13пожаловаться #8

M

Munir in ClickHouse не тормозит

Давид Авагимян

Есть самописная DMP для внутренних нужд компании и сейчас стоит задача по формированию аттрибутов профилй. Решили взять кх для сборки и обработки сырых данных ( опыта в этом большого нет). В сырые данные сохраняются title и url запросов и куча других полей. Пока работа идет с title и url полями, по ним формируются правила примера если title содержит "нужный текст" то такой запрос относится к аттрибуту под id 400 ( к примеру). Получается по факту пример запроса такой

select uid, positionCaseInsensitiveUTF8(ref, 'https://example.ru') != 0  OR positionCaseInsensitiveUTF8(title, 'Кулинария') != 0  OR positionCaseInsensitiveUTF8(title, 'Рецепт этого блюда') != 0 OR positionCaseInsensitiveUTF8(title, 'Кулинарный рецепт') != 0 as "440" from raw_data where "440" = 1;

В чем вопрос? :) сырые данные лучше нормализовывать (регистр, различные варианты написания URL) или до кх (возможно, кто пишет данные), или через мат.вью. Если набор URL ограничен, то возможно обогащать атрибутом через словарь или через подготовленный join в той же мат.вью.

источник

12:14пожаловаться #9

ДА

Давид Авагимян... in ClickHouse не тормозит

Munir

В чем вопрос? :) сырые данные лучше нормализовывать (регистр, различные варианты написания URL) или до кх (возможно, кто пишет данные), или через мат.вью. Если набор URL ограничен, то возможно обогащать атрибутом через словарь или через подготовленный join в той же мат.вью.

Проблема в том что набор url не ограничен) И сам вопрос в том что у меня иногда запросы просто не отрабатывают так как не справляются за время. Пока единственный вариант который пришел в голову расширить кластер кх. Но подумал вдруг есть еще какой либо способ или какой либо еще инструмент который можно поковырять)

источник

12:17пожаловаться #10

M

Munir in ClickHouse не тормозит

Давид Авагимян

Проблема в том что набор url не ограничен) И сам вопрос в том что у меня иногда запросы просто не отрабатывают так как не справляются за время. Пока единственный вариант который пришел в голову расширить кластер кх. Но подумал вдруг есть еще какой либо способ или какой либо еще инструмент который можно поковырять)

Этот запрос вы из маьвью вытащили или из селекта?

источник

12:18пожаловаться #11

ДА

Давид Авагимян... in ClickHouse не тормозит

из select

источник

12:19пожаловаться #12

M

Munir in ClickHouse не тормозит

Правила только по title?

источник

12:20пожаловаться #13

K

KiLEX 萊赫 in ClickHouse не тормозит

Давид Авагимян

Там запрос иногда из 20-30 аттрибутов по 50-60 блоков OR каждый), данные в кх обрабатываются за пол года. их там порядка 200-300 миллиардов записей.

возможно будет лучше создать material column’ы чтобы они считались при вставке на каждый из поисков. чтобы полнотекстовый поиск происходил только раз на одну запись, а не на каждый запрос

источник

12:22пожаловаться #14

ДА

Давид Авагимян... in ClickHouse не тормозит

правила и по title и по url формируются. Их количество не ограничено. Аттрибутов тоже много соответственно правила все разные и комбинации тоже разные внутри.

источник

12:23пожаловаться #15

ДА

Давид Авагимян... in ClickHouse не тормозит

ну вот это можно было попробовать material column’ы

источник

12:23пожаловаться #16

I

Ivan in ClickHouse не тормозит

Други, помогите плз) Есть таблица с логами заходов пользователей(1 запись = 1 действие). Нужно сгруппировать по дате и посчитать кол-во активных пользователей по датам. Активный - это тот кто заходил хотябы раз за 2 недели, тоесть есть хотя бы одна запись) Как на клике это лучше всего посчитать?

источник

12:23пожаловаться #17

K

KiLEX 萊赫 in ClickHouse не тормозит

Давид Авагимян

ну вот это можно было попробовать material column’ы

ну да, клику не так сильно важно сколько этих колумнов будет. разбить на атомарные признаки и хранить только 0/1 типа совпадает/не совпадает, а потом уже любые запросы можно будет строить

источник

12:24пожаловаться #18

K

KiLEX 萊赫 in ClickHouse не тормозит

наверное можно еще както массив склепать в этот material column - но я не пробовал

источник

12:24пожаловаться #19

ИМ

Илья Максимов... in ClickHouse не тормозит

Хаюшке всем, докинули пару дисков в рейд на пару терабайт, участились мерджи и начали отставать периодически реплики. Я подозреваю что надо просто какие то настройки подтюнить, но не уверен какие конекретно. Сталкивался кто?

источник

12:25пожаловаться #20