Телеграмм чат группы clickhouse_ru страница 7681

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ClickHouse не тормозит

4028 membersпожаловаться на группу

2020 June 26

TP

Timur Polukeev in ClickHouse не тормозит

Добрый день, коллеги. Прошу совета у коллективного разума для решения следующей задачи.
Имеется таблица:

CREATE TABLE events (
  event_time DateTime,
  event_id UUID,
  country String,
  state String
) ENGINE = MergeTree()

Пускай в таблицу пишутся некие события, каждое со своим event_id и state=new. Также для некоторых событий приходят обновления значения state (например processing, rejected, approved и т.д.) и для сохранения этого факта в ту же таблицу записывается новая строка с ранее известным event_id (а также country), но свежим event_time и state. Таким образом для каждого уникального event_id актуальное значение state лежит в строке с максимальным event_time.

Требуется выполнить аналитический запрос и получить количество событий со state равным rejected и approved с группировкой по country. Первое, что приходит в голову:

SELECT
  country,
  sum(state='rejected') as rejected,
  sum(state='approved') as approved,
FROM (
  SELECT any(country) AS country, argMax(state, event_time) as state
  FROM events
  GROUP BY event_id
)
GROUP BY country

Но GROUP BY event_id не выглядит хорошим решением. Напрашивается использование ReplacingMergeTree, но он не даёт гарантии отсутствия дубликатов. Есть альтернативные способы построить подобный запрос? Или надо как-то менять структуру хранения событий?

источник

10:46пожаловаться #1

AP

Alexander Petrov in ClickHouse не тормозит

сейчас в миграциях указал первый под и все таблицы создались в первом поде, а ReplecatedMergeTree также появились в других подах и нет как раньше разброса таблиц kafka engine, consumer MV по всем подам.
Если запущу во всех подах миграции, то видимо kafka engine, consumer MV тоже продублируются и будет ок

Можно наверное какой-нибудь kubernates job приделать чтоб он на всех подах запускал миграции

источник

11:16пожаловаться #2

AK

Andrew Kochen in ClickHouse не тормозит

Добрый день, коллеги. Прошу совета у коллективного разума для решения следующей задачи.
Имеется таблица:

CREATE TABLE events (
  event_time DateTime,
  event_id UUID,
  country String,
  state String
) ENGINE = MergeTree()

Пускай в таблицу пишутся некие события, каждое со своим event_id и state=new. Также для некоторых событий приходят обновления значения state (например processing, rejected, approved и т.д.) и для сохранения этого факта в ту же таблицу записывается новая строка с ранее известным event_id (а также country), но свежим event_time и state. Таким образом для каждого уникального event_id актуальное значение state лежит в строке с максимальным event_time.

Требуется выполнить аналитический запрос и получить количество событий со state равным rejected и approved с группировкой по country. Первое, что приходит в голову:

SELECT
  country,
  sum(state='rejected') as rejected,
  sum(state='approved') as approved,
FROM (
  SELECT any(country) AS country, argMax(state, event_time) as state
  FROM events
  GROUP BY event_id
)
GROUP BY country

Но GROUP BY event_id не выглядит хорошим решением. Напрашивается использование ReplacingMergeTree, но он не даёт гарантии отсутствия дубликатов. Есть альтернативные способы построить подобный запрос? Или надо как-то менять структуру хранения событий?

ReplacingMergeTree и запрос SELECT ... FINAL ?

источник

11:29пожаловаться #3

TP

Timur Polukeev in ClickHouse не тормозит

ReplacingMergeTree и запрос SELECT ... FINAL ?

Если я правильно понял, документация советует избегать использование FINAL

источник

11:34пожаловаться #4

AB

Andrey Bobelev in ClickHouse не тормозит

Привет, при апгрейде с 19.13.3.26 до 20.3.11.97 очень много такого
Таблицы локальные MergeTree, не реплицируемые

https://pastebin.vkpartner.ru/raw/ergJ5aIZb0VAU5vhlmIoQ4CydHWzNksGJDobibwdEsvqRwsEdXvSPgpZ78DQc4xh8Nx2oRL3VoUkhTa8

источник

11:34пожаловаться #5

AB

Andrey Bobelev in ClickHouse не тормозит

После 10 минут попытки запуска оно падает c ошибкой Suspiciously many (38) broken parts to remove.

источник

11:36пожаловаться #6

Н

Николай in ClickHouse не тормозит

Добрый день, коллеги. Прошу совета у коллективного разума для решения следующей задачи.
Имеется таблица:

CREATE TABLE events (
  event_time DateTime,
  event_id UUID,
  country String,
  state String
) ENGINE = MergeTree()

Пускай в таблицу пишутся некие события, каждое со своим event_id и state=new. Также для некоторых событий приходят обновления значения state (например processing, rejected, approved и т.д.) и для сохранения этого факта в ту же таблицу записывается новая строка с ранее известным event_id (а также country), но свежим event_time и state. Таким образом для каждого уникального event_id актуальное значение state лежит в строке с максимальным event_time.

Требуется выполнить аналитический запрос и получить количество событий со state равным rejected и approved с группировкой по country. Первое, что приходит в голову:

SELECT
  country,
  sum(state='rejected') as rejected,
  sum(state='approved') as approved,
FROM (
  SELECT any(country) AS country, argMax(state, event_time) as state
  FROM events
  GROUP BY event_id
)
GROUP BY country

Но GROUP BY event_id не выглядит хорошим решением. Напрашивается использование ReplacingMergeTree, но он не даёт гарантии отсутствия дубликатов. Есть альтернативные способы построить подобный запрос? Или надо как-то менять структуру хранения событий?

Есть специальный движок для возможных обновлений

источник

11:37пожаловаться #7

Н

Николай in ClickHouse не тормозит

Забыл как называется)

источник

11:37пожаловаться #8

Н

Николай in ClickHouse не тормозит

Добрый день, коллеги. Прошу совета у коллективного разума для решения следующей задачи.
Имеется таблица:

CREATE TABLE events (
  event_time DateTime,
  event_id UUID,
  country String,
  state String
) ENGINE = MergeTree()

Пускай в таблицу пишутся некие события, каждое со своим event_id и state=new. Также для некоторых событий приходят обновления значения state (например processing, rejected, approved и т.д.) и для сохранения этого факта в ту же таблицу записывается новая строка с ранее известным event_id (а также country), но свежим event_time и state. Таким образом для каждого уникального event_id актуальное значение state лежит в строке с максимальным event_time.

Требуется выполнить аналитический запрос и получить количество событий со state равным rejected и approved с группировкой по country. Первое, что приходит в голову:

SELECT
  country,
  sum(state='rejected') as rejected,
  sum(state='approved') as approved,
FROM (
  SELECT any(country) AS country, argMax(state, event_time) as state
  FROM events
  GROUP BY event_id
)
GROUP BY country

Но GROUP BY event_id не выглядит хорошим решением. Напрашивается использование ReplacingMergeTree, но он не даёт гарантии отсутствия дубликатов. Есть альтернативные способы построить подобный запрос? Или надо как-то менять структуру хранения событий?

https://clickhouse.tech/docs/ru/engines/table-engines/mergetree-family/collapsingmergetree/

clickhouse.tech

CollapsingMergeTree | Документация ClickHouse

CollapsingMergeTree Движок наследует функциональность от MergeTree и добавляет в алгоритм слияния кусков данных логику с

источник

11:39пожаловаться #9

Н

Николай in ClickHouse не тормозит

Посмотри, может тебе подойдёт для твоей задачи

источник

11:39пожаловаться #10

AP

Alexander Petrov in ClickHouse не тормозит

В итоге запрос станет проще ага:

select
    country,
    state,
    sum(sign) as events_count
from events
group by country, state

Но вставка станет кудрявее. Для каждого нового состояния надо будет вставить ещё и отмену предыдущего. А если порядок вставки не гарантируется, то надо юзать VersionedCollapsingMergeTree. Там ещё версия добавляется.

источник

11:59пожаловаться #11

AP

Alexander Petrov in ClickHouse не тормозит

А если таблица используется не только для этого, не факт что остальные запросы получится переписать под такую схему без последствий.

источник

12:03пожаловаться #12

AR

Alexander Ryzhenko in ClickHouse не тормозит

Доброго всем. Я уже задавал этот вопрос пару дней назад, но все же.

Есть таблица

data_lake (
 order_id nullable(int32),
 order_date nullable(datetime)
 order_product_id nullable(int32)
 order_product_price nullable(decimal)
)

Есть 2 таблицы с engine kafka (для order и для order_product)
и 2 матвьюхи (консюмеры из кафки в таблицу data_lake). В консюмере я перечисляю только те поля, которые есть в соответствующем кафка топике.

Почему при вычитывании из кафки я получаю ошибки

<Error> void DB::StorageKafka::threadFunc(): Code: 8, e.displayText() = DB::Exception: Cannot find column `order_id` in source stream: while pushing to view streams.order_product_consumer

На тестовом сервер работало нормально. Версия 19.15.3.6
Может есть настройка какая, которая требует строгого перечисления ВСЕХ полей?

источник

12:20пожаловаться #13

AF

Anton Farygin in ClickHouse не тормозит

Alexander Petrov

В итоге запрос станет проще ага:

select
    country,
    state,
    sum(sign) as events_count
from events
group by country, state

Но вставка станет кудрявее. Для каждого нового состояния надо будет вставить ещё и отмену предыдущего. А если порядок вставки не гарантируется, то надо юзать VersionedCollapsingMergeTree. Там ещё версия добавляется.

Добрый день! А тоже самое, интересно, сделать в MV можно каким-то образом ? У меня тоже есть похожая задача, но хотелось бы её полностью отдать на базу.

источник

12:24пожаловаться #14

SC

Smoked Cheese in ClickHouse не тормозит

Alexander Ryzhenko

Доброго всем. Я уже задавал этот вопрос пару дней назад, но все же.

Есть таблица

data_lake (
 order_id nullable(int32),
 order_date nullable(datetime)
 order_product_id nullable(int32)
 order_product_price nullable(decimal)
)

Есть 2 таблицы с engine kafka (для order и для order_product)
и 2 матвьюхи (консюмеры из кафки в таблицу data_lake). В консюмере я перечисляю только те поля, которые есть в соответствующем кафка топике.

Почему при вычитывании из кафки я получаю ошибки

<Error> void DB::StorageKafka::threadFunc(): Code: 8, e.displayText() = DB::Exception: Cannot find column `order_id` in source stream: while pushing to view streams.order_product_consumer

На тестовом сервер работало нормально. Версия 19.15.3.6
Может есть настройка какая, которая требует строгого перечисления ВСЕХ полей?

надо дефолты у таблицы проставить, даже если это NULL

источник

12:26пожаловаться #15

AR

Alexander Ryzhenko in ClickHouse не тормозит

надо дефолты у таблицы проставить, даже если это NULL

прописаны дефолты вида
default CAST(NULL, 'Nullable(Int32)')

источник

12:30пожаловаться #16

AP

Alexander Petrov in ClickHouse не тормозит

Добрый день! А тоже самое, интересно, сделать в MV можно каким-то образом ? У меня тоже есть похожая задача, но хотелось бы её полностью отдать на базу.

Неа. В MV не получить предыдущие состояния выгружаемых строк. Это всё надо делать перед вставкой.

источник

12:32пожаловаться #17

AF

Anton Farygin in ClickHouse не тормозит

а если мы точно знаем, что предыдущее состояние строк нам не интересно и мы хотим его в любом случае заменить новым, при этом удалив некоторые из них ? Что то мне подсказывает что для этого надо какой-то другой движок использовать, а не CollapsingMergeTree.

источник

12:40пожаловаться #18

DT

Dmitry Titov in ClickHouse не тормозит

ReplacingMergeTree

источник

12:42пожаловаться #19

AP

Alexander Petrov in ClickHouse не тормозит

ReplacingMergeTree

не удалит строки

источник

12:42пожаловаться #20