Size: a a a

ClickHouse не тормозит

2021 January 18

ВВ

Вячеслав Владимиров... in ClickHouse не тормозит
тут как раз все такие так что пиши ))
источник

D

Denisio in ClickHouse не тормозит
не все, так что я просто послушаю
источник

NT

Nikita Tikhomirov in ClickHouse не тормозит
А есть ли возможность посмотреть статус OPTIMIZE TABLE к ReplicationMergeTree?
источник

ДА

Давид Авагимян... in ClickHouse не тормозит
Есть самописная DMP для внутренних нужд компании и сейчас стоит задача по  формированию аттрибутов профилй. Решили взять кх для сборки и обработки сырых данных ( опыта в этом большого нет). В сырые данные сохраняются title и url запросов и куча других полей.  Пока работа идет с title и url полями, по ним формируются правила примера если title содержит "нужный текст"  то такой запрос относится к аттрибуту под id 400 ( к примеру). Получается по факту пример запроса такой
select uid, positionCaseInsensitiveUTF8(ref, 'https://example.ru') != 0  OR positionCaseInsensitiveUTF8(title, 'Кулинария') != 0  OR positionCaseInsensitiveUTF8(title, 'Рецепт этого блюда') != 0 OR positionCaseInsensitiveUTF8(title, 'Кулинарный рецепт') != 0 as "440" from raw_data where "440" = 1;
источник

ДА

Давид Авагимян... in ClickHouse не тормозит
Там запрос иногда из 20-30 аттрибутов по 50-60 блоков OR каждый), данные в кх обрабатываются за пол года. их там порядка 200-300 миллиардов записей.
источник

ЕГ

Евгений Гаврюшин... in ClickHouse не тормозит
Здравствуйте!
Создали таблицу с полем типа DateTime без указания timezone; timezone, похоже, выставился автоматически Europe/Moscow. Заполнять это поле начали (по ошибке) датой UTC, то есть получили событие в 13:00 по московскому времени, превратили это время в UTC, то есть 10:00, и записали в поле DateTime. В итоге, как я понял из доки, которая говорит о том, что не важно, какая timezone указана для поля, все равно в недрах всё хранится в UTC (ну и как я вижу исходя из запросов), на самом деле в таблице сохранилось время 07:00 (это наблюдается при запросах, где пытаюсь выгрузить данные за определенные промежутки времени).
Engine таблицы – ReplicatedMergeTree
Каким образом корректно исправить эту проблему? Изменить тип стобца с DateTime('Europe/Moscow') на DateTime('Europe/London'), а затем обновить все значения этого поля, чтобы привести их к корректным?
источник

K

KirillReal in ClickHouse не тормозит
Добрый день, а если я хочу потоково читать из двух кафок с разными топиками, можно это как-то сделать?

я пробывал вот так, вбить адреса кафок и задать названия топиков:

create table test_kafka (
id UInt64
) ENGINE = Kafka('kafka-1:9092’, ’kafka-2:9092’ , ‘topic_1, topic_2', 'group1', 'JSONEachRow’);

но так не работает 🙁
Кажется, потому что в kafka-1 нет topic_2 и в kafka-2 нет topic_1

Делаю такой вывод, так как по отдельности все работает:

create table test_kafka (
id UInt64
) ENGINE = Kafka('kafka-1:9092’,  ‘topic_1', 'group1', 'JSONEachRow’);

create table test_kafka (
id UInt64
) ENGINE = Kafka(‘kafka-2:9092’,  ‘topic_2', 'group1', 'JSONEachRow’);
источник

M

Mishanya in ClickHouse не тормозит
KirillReal
Добрый день, а если я хочу потоково читать из двух кафок с разными топиками, можно это как-то сделать?

я пробывал вот так, вбить адреса кафок и задать названия топиков:

create table test_kafka (
id UInt64
) ENGINE = Kafka('kafka-1:9092’, ’kafka-2:9092’ , ‘topic_1, topic_2', 'group1', 'JSONEachRow’);

но так не работает 🙁
Кажется, потому что в kafka-1 нет topic_2 и в kafka-2 нет topic_1

Делаю такой вывод, так как по отдельности все работает:

create table test_kafka (
id UInt64
) ENGINE = Kafka('kafka-1:9092’,  ‘topic_1', 'group1', 'JSONEachRow’);

create table test_kafka (
id UInt64
) ENGINE = Kafka(‘kafka-2:9092’,  ‘topic_2', 'group1', 'JSONEachRow’);
я думаю, что нужно создавать две таблицы с разными коннекшенами
так будет более верно на мой взгляд, тк если чето упадет на первой, то весь консюм не стопнется
источник

M

Munir in ClickHouse не тормозит
Давид Авагимян
Есть самописная DMP для внутренних нужд компании и сейчас стоит задача по  формированию аттрибутов профилй. Решили взять кх для сборки и обработки сырых данных ( опыта в этом большого нет). В сырые данные сохраняются title и url запросов и куча других полей.  Пока работа идет с title и url полями, по ним формируются правила примера если title содержит "нужный текст"  то такой запрос относится к аттрибуту под id 400 ( к примеру). Получается по факту пример запроса такой
select uid, positionCaseInsensitiveUTF8(ref, 'https://example.ru') != 0  OR positionCaseInsensitiveUTF8(title, 'Кулинария') != 0  OR positionCaseInsensitiveUTF8(title, 'Рецепт этого блюда') != 0 OR positionCaseInsensitiveUTF8(title, 'Кулинарный рецепт') != 0 as "440" from raw_data where "440" = 1;
В чем вопрос? :) сырые данные лучше нормализовывать (регистр, различные варианты написания URL) или до кх (возможно, кто пишет данные), или через мат.вью. Если набор URL ограничен, то возможно обогащать атрибутом через словарь или через подготовленный join в той же мат.вью.
источник

ДА

Давид Авагимян... in ClickHouse не тормозит
Munir
В чем вопрос? :) сырые данные лучше нормализовывать (регистр, различные варианты написания URL) или до кх (возможно, кто пишет данные), или через мат.вью. Если набор URL ограничен, то возможно обогащать атрибутом через словарь или через подготовленный join в той же мат.вью.
Проблема в том что  набор url не ограничен) И сам вопрос в том что у меня иногда запросы просто не отрабатывают так как не справляются за время. Пока единственный вариант который пришел в голову расширить кластер кх. Но подумал вдруг есть еще какой либо способ или какой либо еще инструмент который можно поковырять)
источник

M

Munir in ClickHouse не тормозит
Давид Авагимян
Проблема в том что  набор url не ограничен) И сам вопрос в том что у меня иногда запросы просто не отрабатывают так как не справляются за время. Пока единственный вариант который пришел в голову расширить кластер кх. Но подумал вдруг есть еще какой либо способ или какой либо еще инструмент который можно поковырять)
Этот запрос вы из маьвью вытащили или из селекта?
источник

ДА

Давид Авагимян... in ClickHouse не тормозит
из select
источник

M

Munir in ClickHouse не тормозит
Правила только по title?
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
Давид Авагимян
Там запрос иногда из 20-30 аттрибутов по 50-60 блоков OR каждый), данные в кх обрабатываются за пол года. их там порядка 200-300 миллиардов записей.
возможно будет лучше создать material column’ы чтобы они считались при вставке на каждый из поисков. чтобы полнотекстовый поиск происходил только раз на одну запись, а не на каждый запрос
источник

ДА

Давид Авагимян... in ClickHouse не тормозит
правила и по title и по url формируются. Их количество не ограничено. Аттрибутов тоже много соответственно правила все разные и комбинации тоже разные внутри.
источник

ДА

Давид Авагимян... in ClickHouse не тормозит
ну вот это можно было попробовать material column’ы
источник

I

Ivan in ClickHouse не тормозит
Други, помогите плз) Есть таблица с логами заходов пользователей(1 запись = 1 действие). Нужно сгруппировать по дате и посчитать кол-во активных пользователей по датам. Активный - это тот кто заходил хотябы раз за 2 недели, тоесть есть хотя бы одна запись) Как на клике это лучше всего посчитать?
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
Давид Авагимян
ну вот это можно было попробовать material column’ы
ну да, клику не так сильно важно сколько этих колумнов будет. разбить на атомарные признаки и хранить только 0/1 типа совпадает/не совпадает, а потом уже любые запросы можно будет строить
источник

K

KiLEX 萊赫 in ClickHouse не тормозит
наверное можно еще както массив склепать в этот material column - но я не пробовал
источник

ИМ

Илья Максимов... in ClickHouse не тормозит
Хаюшке всем, докинули пару дисков в рейд на пару терабайт, участились мерджи и начали отставать периодически реплики. Я подозреваю что надо просто какие то настройки подтюнить, но не уверен какие конекретно. Сталкивался кто?
источник