Телеграмм чат группы clickhouse_ru страница 9185

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ClickHouse не тормозит

4779 membersпожаловаться на группу

2021 January 29

SN

Sergey Nikolaev in ClickHouse не тормозит

Sergey Nikolaev

Привет. Кто-нибудь знает как тут https://clickhouse.tech/benchmark/dbms/#[%22100000000%22,[%22ClickHouse%22,%22InfiniDB%22],[%221%22]] вычислается "Relative query processing time" ?

Это не среднее, не среднее квадратичное (и не в третьей / полуторной степени))? Что за формула? Нормализация какая-то идёт, непонятно по чему.

clickhouse.tech

Performance comparison of database management systems

ClickHouse is a fast open-source column-oriented database management system that allows generating analytical data reports in real-time using SQL queries

FYI: посмотрел, в javascript'е : корень степени кол-ва элементов от произведения этих элементов.

источник

18:48пожаловаться #1

AK

Alexander Kononov in ClickHouse не тормозит

это среднегеометрическое называется

источник

18:58пожаловаться #2

MK

Max Khlystov in ClickHouse не тормозит

по какой причине могут теряться данные при инсертах ?

источник

19:58пожаловаться #3

GE

Grisha Egorov in ClickHouse не тормозит

по какой причине могут теряться данные при инсертах ?

Кластер с НЕ Replicated таблицами?

источник

20:26пожаловаться #4

MK

Max Khlystov in ClickHouse не тормозит

Кластер с НЕ Replicated таблицами?

неа один сервер

источник

20:26пожаловаться #5

MK

Max Khlystov in ClickHouse не тормозит

просто тут писали вроде как что при очень большом инсерт блоке данные могут теряться по пути

источник

20:27пожаловаться #6

GE

Grisha Egorov in ClickHouse не тормозит

Были разные кейсы но такого не встречал. А какой тип движка?

источник

20:29пожаловаться #7

MK

Max Khlystov in ClickHouse не тормозит

реплейсед мердж три

источник

20:30пожаловаться #8

IV

Ivan Volynkin in ClickHouse не тормозит

Коллеги, добрый день

Распухла директория /clickhouse/store, которая рядом с /clickhouse/data

Не очень понятно, что там лежит. Есть ли какая-то документация на эту тему?

источник

20:30пожаловаться #9

A

Andrey in ClickHouse не тормозит

Коллеги, добрый день

Распухла директория /clickhouse/store, которая рядом с /clickhouse/data

Не очень понятно, что там лежит. Есть ли какая-то документация на эту тему?

https://github.com/ClickHouse/ClickHouse/issues/15504#issuecomment-702314222

Question: "store" directory in Clickhouse data directory · Issue #15504 · ClickHouse/ClickHouse

There is a directory called "store" in Clickhouse data folder which is only 32 MB in size but contains 286k+ subfolders and 141k files. Th database is idle for a day, so there sho...

источник

20:32пожаловаться #10

IV

Ivan Volynkin in ClickHouse не тормозит

https://github.com/ClickHouse/ClickHouse/issues/15504#issuecomment-702314222

Question: "store" directory in Clickhouse data directory · Issue #15504 · ClickHouse/ClickHouse

There is a directory called "store" in Clickhouse data folder which is only 32 MB in size but contains 286k+ subfolders and 141k files. Th database is idle for a day, so there sho...

Спасибо!

источник

20:42пожаловаться #11

GE

Grisha Egorov in ClickHouse не тормозит

реплейсед мердж три

ORDER BY проверяли, правильно выбран?

источник

20:43пожаловаться #12

MK

Max Khlystov in ClickHouse не тормозит

а есть какойто способ залочить таблицу на запись

источник

20:52пожаловаться #13

AS

Alexey Sokolov in ClickHouse не тормозит

Помогите, пожалуйста, разобраться с ключами партиционирования.

Для теста сделал две таблицы, наполнение одинаковое, различаются только ключом партиционирования.
Первая:

CREATE TABLE TestTable
(
  event_id UUID,
  event_date Date,
  event_type LowCardinality(String),
  event_region LowCardinality(String),
  minValueState AggregationFunction(min, Int8),
  recordsNumState AggregationFunction(count)
)
ENGINE = AggregationMergeTree()
PARTITION BY toYYYYMMDD(event_date)
ORDER BY (event_date, event_type, event_region)
TTL event_date + interval 30 day

Вторая:

PARTITION BY (toYYYYMMDD(event_date), event_type, event_region)

В таблице сейчас всего 2 млрд записей, в день пишется 500 млн, ожидаемый рабочий размер - 15 млрд записей. Все запросы представляют из себя либо выбор event_id по нужным (event_date, event_type, event_region) с заданным значением агрегата min, либо подсчёт выбранных таким образом уников.

Тестовый запрос:

SELECT
  t.event_id
FROM
  TestTable t
WHERE
  t.event_date = '2021-01-25'
  and t.event_type = 'event1'
  and t.event_region = 'Msk'
GROUP BY
  t.event_id
HAVING
  minMerge(t.minValueState) > 0

Результат для первой таблицы:
read_rows = 50.0 млн
memory_usage = 6.23 гб

Результат для второй таблицы:
read_rows = 49.8 млн
memory_usage = 5.71 гб

Правильно понимаю, что в первом варианте КХ ищет по засечкам нужную часть партиции, которая, благодаря ключу сортировки, получается лишь немного больше нужной партиции во втором варианте, и работает только с ней?

Я предполагал, что второй вариант будет сильно быстрее, но такая оптимизация в моём случае практически бесполезна. А в каких случаях разбиение на более мелкие партиции имеет смысл для ускорения запросов? Или я вообще делаю что-то не так?

источник

20:54пожаловаться #14

С2

Сергей 2017 in ClickHouse не тормозит

Здравствуйте. Как в clickhouse можно получить список всех залитых данных конкретным юзером?

Какая команда?

источник

22:27пожаловаться #15

PN

Pavel Nemirovsky in ClickHouse не тормозит

Добрый вечер, кто поделиться опытом на счет secondary indices в MergeTree? Есть ли какие то подводные камни ?

источник

22:32пожаловаться #16

НМ

Никита Макушников... in ClickHouse не тормозит

Сергей 2017

Здравствуйте. Как в clickhouse можно получить список всех залитых данных конкретным юзером?

Какая команда?

Гляньте system.query_log

https://clickhouse.tech/docs/en/operations/system-tables/query_log/

clickhouse.tech

system.query_log | ClickHouse Documentation

system.query_log Contains information about executed queries, for example, start time, duration of processing, error mes

источник

22:33пожаловаться #17

A

Alexander in ClickHouse не тормозит

у меня вопрос по https://altinity.com/blog/2018/5/10/circular-replication-cluster-topology-in-clickhouse

там есть упоминание про internal_replication == true,
но для меня абсолютно не очевидно зачем оно нужно, если вставка _НЕ_ через distributed.

Вопрос#1: я правильно понимаю что этот параметр влияет только на distributed вставку?
Вопрос#2: решил убедится что будет двойная вставка если его поставить false, но что-то поведение точно такое же как и с true, что не понятно

источник

22:50пожаловаться #18

L

Lamobot in ClickHouse не тормозит

у меня вопрос по https://altinity.com/blog/2018/5/10/circular-replication-cluster-topology-in-clickhouse

там есть упоминание про internal_replication == true,
но для меня абсолютно не очевидно зачем оно нужно, если вставка _НЕ_ через distributed.

Вопрос#1: я правильно понимаю что этот параметр влияет только на distributed вставку?
Вопрос#2: решил убедится что будет двойная вставка если его поставить false, но что-то поведение точно такое же как и с true, что не понятно

distributed - это распределение данных по шардам, вставляешь в distributed таблицу, КХ эти данные разносит по разным шардам. На каждый попадают свои данные!
А репликация это копирование данных на реплики. Реплика - это копия данных на другом сервере.
Репликацию можно делать двумя способами, когда КХ сам реплицирует данные, используя zookeeper (internal_replication=true) Или же когда клиент сам вставляет в обе (или более) реплик (internal_replication=false)
circular replication - так себе структура кластера, и лучше не трогать internal_replication=true

источник

22:55пожаловаться #19

A

Alexander in ClickHouse не тормозит

distributed - это распределение данных по шардам, вставляешь в distributed таблицу, КХ эти данные разносит по разным шардам. На каждый попадают свои данные!
А репликация это копирование данных на реплики. Реплика - это копия данных на другом сервере.
Репликацию можно делать двумя способами, когда КХ сам реплицирует данные, используя zookeeper (internal_replication=true) Или же когда клиент сам вставляет в обе (или более) реплик (internal_replication=false)
circular replication - так себе структура кластера, и лучше не трогать internal_replication=true

да, я всё это знаю, однако объяснение это не помогает найти.

Если он false, то distributed должен сам разнести по репликам? если так, то каждая реплика должна ещё внутрее реплици .... кажется ответ понятен: internal_replication = false отключает внутреннюю репликацию => поведение будет одинаковое по сути, только через разные механизмы (какой из них лучше не важно)

источник

22:58пожаловаться #20