Телеграмм чат группы clickhouse_ru страница 8139

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ClickHouse не тормозит

4240 membersпожаловаться на группу

2020 August 31

GR

Gubaydullin Ruslan in ClickHouse не тормозит

Добрый день
у меня есть таблица типа collapsing merge tree
мне нужно обновить данные в каждой строке таблицы
есть два варианта:
1. для каждой строки: ALTER TABLE tablename UPDATE field = 'value' WHERE id = x
2. для каждой строки INSERT INTO tablename (sign, field1, field2, ...) VALUES (-1, ...), (1, ...)

какой из вариантов следует использовать?
спасибо

источник

11:56пожаловаться #1

D

Dj in ClickHouse не тормозит

лучше 3:

CREATE table newTable () ...;
INSERT INTO newTable SELECT a,b, updated(c) from oldTable;
drop table oldTable;

источник

11:59пожаловаться #2

D

Dj in ClickHouse не тормозит

Gubaydullin Ruslan

Добрый день
у меня есть таблица типа collapsing merge tree
мне нужно обновить данные в каждой строке таблицы
есть два варианта:
1. для каждой строки: ALTER TABLE tablename UPDATE field = 'value' WHERE id = x
2. для каждой строки INSERT INTO tablename (sign, field1, field2, ...) VALUES (-1, ...), (1, ...)

какой из вариантов следует использовать?
спасибо

^^^

источник

11:59пожаловаться #3

SK

Sergey Kotyushkin in ClickHouse не тормозит

гайз, а как можно сгруппировать данные по массиву ?

value group_field
10 [1,2]
20 [2,3]

————

group_field v
1 10
2 30
3 20

можно так

select group_field, sum(value) v
from
(
  select 10 value, [1, 2] group_field
  union all select 20 value, [2, 3] group_field
)
array join group_field
group by group_field

источник

12:00пожаловаться #4

GR

Gubaydullin Ruslan in ClickHouse не тормозит

а что лучше первый или второй способ?

источник

12:01пожаловаться #5

GR

Gubaydullin Ruslan in ClickHouse не тормозит

данные нужно единоразово обновить

источник

12:05пожаловаться #6

A

Alexandr in ClickHouse не тормозит

Добрый день! а можно как-то кумулятивную сумму посчитать? например есть продажи за каждый месяц, и хочется для каждого месяца видеть накопленную сумму за прошлые месяца?

источник

12:07пожаловаться #7

D

Dj in ClickHouse не тормозит

Gubaydullin Ruslan

а что лучше первый или второй способ?

если все инсерты одним махом вставите, второй...
если собрались построчно - первый... но при падении КХ данные могут быть в недетерминированном состояниии

источник

12:08пожаловаться #8

ЕК

Евгений Король... in ClickHouse не тормозит

Добрый день, господа. У меня есть вопрос. Я создал таблицу

CREATE TABLE IF NOT EXISTS forms_log (
uid FixedString(8),
sequence_id FixedString(8),
form_id UInt32,
question_id UInt32,
answer_id UInt32,
is_correct UInt8,
event_type Enum8('load' = 1, 'show' = 2, 'result' = 3, 'completed' = 4, 'session_active' = 5),
session_tick_interval UInt32,
domain_id UInt32,
widget_id UInt32,
ctime DateTime,
event_date Date ALIAS toDate(ctime)
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/forms_log', '{replica}')
ORDER BY ( ctime, form_id, question_id, answer_id, event_type )
SETTINGS index_granularity=8192;

но забыл сделать ей партиционирование по дню, а там уже накопилось данных прилично, можно ли добавить как-то partition by в существующую таблицу?

источник

12:32пожаловаться #9

EM

Evgeny Makarov in ClickHouse не тормозит

Добрый день! а можно как-то кумулятивную сумму посчитать? например есть продажи за каждый месяц, и хочется для каждого месяца видеть накопленную сумму за прошлые месяца?

можно с использованием arrayCumSum

CREATE TABLE test_cumsum (pk Integer, pk2 Integer, value Integer) ENGINE MergeTree() ORDER BY (pk);
insert into test_cumsum values (0,1), (1,1), (2,2), (3,1);
select * from test_cumsum order by pk2;

SELECT *
FROM test_cumsum
ORDER BY pk2 ASC

┌─pk─┬─pk2─┬─value─┐
│  3 │   1 │     1 │
│  2 │   2 │     2 │
│  1 │   3 │     1 │
│  0 │   4 │     1 │
└────┴─────┴───────┘

4 rows in set. Elapsed: 0.002 sec.
select arrayCumSum(groupArray(value)) from (select pk, value from test_cumsum order by pk);
┌─arrayCumSum(groupArray(value))─┐
│ [1,2,4,5]                      │
└────────────────────────────────┘
select arrayCumSum(groupArray(value)) from (select pk2, value from test_cumsum order by pk2);
┌─arrayCumSum(groupArray(value))─┐
│ [1,3,4,5]                      │
└────────────────────────────────┘

источник

12:32пожаловаться #10

A

Alexandr in ClickHouse не тормозит

можно с использованием arrayCumSum

CREATE TABLE test_cumsum (pk Integer, pk2 Integer, value Integer) ENGINE MergeTree() ORDER BY (pk);
insert into test_cumsum values (0,1), (1,1), (2,2), (3,1);
select * from test_cumsum order by pk2;

SELECT *
FROM test_cumsum
ORDER BY pk2 ASC

┌─pk─┬─pk2─┬─value─┐
│  3 │   1 │     1 │
│  2 │   2 │     2 │
│  1 │   3 │     1 │
│  0 │   4 │     1 │
└────┴─────┴───────┘

4 rows in set. Elapsed: 0.002 sec.
select arrayCumSum(groupArray(value)) from (select pk, value from test_cumsum order by pk);
┌─arrayCumSum(groupArray(value))─┐
│ [1,2,4,5]                      │
└────────────────────────────────┘
select arrayCumSum(groupArray(value)) from (select pk2, value from test_cumsum order by pk2);
┌─arrayCumSum(groupArray(value))─┐
│ [1,3,4,5]                      │
└────────────────────────────────┘

спасибо!

источник

12:33пожаловаться #11

M

Maxim Bogdanov in ClickHouse не тормозит

Подскажите плз, кто разбирается в MergeTree. Я правильно понимаю, что на каждую Part строится свой отсортированный индекс и в несольких индексах вполне могут пересекаться значения, но при этом во время итерирования одинаковые значения не обязательно будут идти последовательно?

Part 1:
A 2
B 4
C 6

Part 2
A 1
B 3 
C 5

Я ожидаю:
A 1
A 2
B 3
B 4
C 5
C 6

А итератор ClickHouse по идее идёт так:
A 2
B 4
C 6
A 1
B 3
C 5

Если не так, то он же не будет сортировать части в памяти, верно? Да и вроде для выборок это не нужно (кроме sequenceMatch).
Я так понимаю, чтобы добиться нужного кейса, нужно либо смерджить всё в одну парт, либо в памяти при запросе эти парты сортировать, либо скакать по данным ещё как-то. Все варианты очень медленные.

источник

12:37пожаловаться #12

D

Dj in ClickHouse не тормозит

Подскажите плз, кто разбирается в MergeTree. Я правильно понимаю, что на каждую Part строится свой отсортированный индекс и в несольких индексах вполне могут пересекаться значения, но при этом во время итерирования одинаковые значения не обязательно будут идти последовательно?

Part 1:
A 2
B 4
C 6

Part 2
A 1
B 3 
C 5

Я ожидаю:
A 1
A 2
B 3
B 4
C 5
C 6

А итератор ClickHouse по идее идёт так:
A 2
B 4
C 6
A 1
B 3
C 5

Если не так, то он же не будет сортировать части в памяти, верно? Да и вроде для выборок это не нужно (кроме sequenceMatch).
Я так понимаю, чтобы добиться нужного кейса, нужно либо смерджить всё в одну парт, либо в памяти при запросе эти парты сортировать, либо скакать по данным ещё как-то. Все варианты очень медленные.

Скан параллельно идет, что в одном парте что в нескольких. Хотите ордер гарантию - делаете ордер бай

источник

12:40пожаловаться #13

D

Dj in ClickHouse не тормозит

Подскажите плз, кто разбирается в MergeTree. Я правильно понимаю, что на каждую Part строится свой отсортированный индекс и в несольких индексах вполне могут пересекаться значения, но при этом во время итерирования одинаковые значения не обязательно будут идти последовательно?

Part 1:
A 2
B 4
C 6

Part 2
A 1
B 3 
C 5

Я ожидаю:
A 1
A 2
B 3
B 4
C 5
C 6

А итератор ClickHouse по идее идёт так:
A 2
B 4
C 6
A 1
B 3
C 5

Если не так, то он же не будет сортировать части в памяти, верно? Да и вроде для выборок это не нужно (кроме sequenceMatch).
Я так понимаю, чтобы добиться нужного кейса, нужно либо смерджить всё в одну парт, либо в памяти при запросе эти парты сортировать, либо скакать по данным ещё как-то. Все варианты очень медленные.

Данные отсортированы уже на диске... По мере чтения кх будет возвращать сортированные данные

источник

12:41пожаловаться #14

M

Maxim Bogdanov in ClickHouse не тормозит

Скан параллельно идет, что в одном парте что в нескольких. Хотите ордер гарантию - делаете ордер бай

Ну да, я это и имел ввиду. Через ордер бай. Интересно, есть ли структура данных, которая всегда отсортирована, возможно LSM подойдёт.

источник

12:41пожаловаться #15

D

Dj in ClickHouse не тормозит

Ну да, я это и имел ввиду. Через ордер бай. Интересно, есть ли структура данных, которая всегда отсортирована, возможно LSM подойдёт.

МТ отсортирован. Неясно чего вы хотите

источник

12:42пожаловаться #16

M

Maxim Bogdanov in ClickHouse не тормозит

Данные отсортированы уже на диске... По мере чтения кх будет возвращать сортированные данные

Это я понимаю, но они отсортированы в каждой части локально, а не глобально по всему датасету. Я привёл вверху эфимерный датасет, который по идее так и интерпретируется кликхаусом, если не юзать ордербай.

источник

12:42пожаловаться #17

ЕК

Евгений Король... in ClickHouse не тормозит

Евгений Король

Добрый день, господа. У меня есть вопрос. Я создал таблицу

CREATE TABLE IF NOT EXISTS forms_log (
uid FixedString(8),
sequence_id FixedString(8),
form_id UInt32,
question_id UInt32,
answer_id UInt32,
is_correct UInt8,
event_type Enum8('load' = 1, 'show' = 2, 'result' = 3, 'completed' = 4, 'session_active' = 5),
session_tick_interval UInt32,
domain_id UInt32,
widget_id UInt32,
ctime DateTime,
event_date Date ALIAS toDate(ctime)
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/forms_log', '{replica}')
ORDER BY ( ctime, form_id, question_id, answer_id, event_type )
SETTINGS index_granularity=8192;

но забыл сделать ей партиционирование по дню, а там уже накопилось данных прилично, можно ли добавить как-то partition by в существующую таблицу?

@den_crane что Вы думаете по этому поводу? =)

источник

12:42пожаловаться #18

D

Dj in ClickHouse не тормозит

Это я понимаю, но они отсортированы в каждой части локально, а не глобально по всему датасету. Я привёл вверху эфимерный датасет, который по идее так и интерпретируется кликхаусом, если не юзать ордербай.

Даже если у вас один парт, селект без ордер бай вернет вам данные вразброс

источник

12:42пожаловаться #19

D

Dj in ClickHouse не тормозит

Евгений Король

Добрый день, господа. У меня есть вопрос. Я создал таблицу

CREATE TABLE IF NOT EXISTS forms_log (
uid FixedString(8),
sequence_id FixedString(8),
form_id UInt32,
question_id UInt32,
answer_id UInt32,
is_correct UInt8,
event_type Enum8('load' = 1, 'show' = 2, 'result' = 3, 'completed' = 4, 'session_active' = 5),
session_tick_interval UInt32,
domain_id UInt32,
widget_id UInt32,
ctime DateTime,
event_date Date ALIAS toDate(ctime)
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/forms_log', '{replica}')
ORDER BY ( ctime, form_id, question_id, answer_id, event_type )
SETTINGS index_granularity=8192;

но забыл сделать ей партиционирование по дню, а там уже накопилось данных прилично, можно ли добавить как-то partition by в существующую таблицу?

Нет. Пересоздавайте. Можете покрыть mergeengine чтоб апп не страдал

источник

12:43пожаловаться #20