Телеграмм чат группы clickhouse

не палите =)

00:02пожаловаться #1

D

Denny Crane (I don't work at Yandex (never did))

уже на тысяче колонок начнутся проблемы, долгая вставка жрущая кучу памяти

а если уменьшить объемы строк в одной итерации мерджа - память будет меньше жратся?

Denny Crane (I don't... in ClickHouse не тормозит

00:03пожаловаться #2

DC

Dj

а если уменьшить объемы строк в одной итерации мерджа - память будет меньше жратся?

да нет, при инсерте на каждую колонку выделяется 2 буфера по мегабайту, 1000 колонок = 2ГБ буферов

00:37пожаловаться #3

D

Denny Crane (I don't work at Yandex (never did))

да нет, при инсерте на каждую колонку выделяется 2 буфера по мегабайту, 1000 колонок = 2ГБ буферов

Спасибо. И объем буфера не параметризован?

Rail in ClickHouse не тормозит

07:11пожаловаться #4

R

Ян Калмычков

мы сделали так: kafka engine -> MV -> Distributed MergeTree -> target ReplicatedMergeTree на каждой ноде кластера

то есть kafka engine и MV находятся только в одной базе и если капут этой базе, то надо идти на другой сервер и создавать kafka engine и MV, верно?

Александр Суворкин... in ClickHouse не тормозит

07:14пожаловаться #5

АС

Rail

то есть kafka engine и MV находятся только в одной базе и если капут этой базе, то надо идти на другой сервер и создавать kafka engine и MV, верно?

Тут логика должна быть следующая: нормальный кластер должен состоять из шардов и реплик. На один шард один Kafka engine + mv.
Если у тебя кластер из 4-х машин где сетап 2+2 (2 шарда и у каждого есть реплика), то ke+mv надо 2 штуки, по одной на шард.
Главное в рамках одного шарда не делать больше 1 ke+mv, тк реплики друг в друга не должны реплицировать данные. В одну пишешь, и она реплицируется

Rail in ClickHouse не тормозит

08:15пожаловаться #6

R

Александр Суворкин

Тут логика должна быть следующая: нормальный кластер должен состоять из шардов и реплик. На один шард один Kafka engine + mv.
Если у тебя кластер из 4-х машин где сетап 2+2 (2 шарда и у каждого есть реплика), то ke+mv надо 2 штуки, по одной на шард.
Главное в рамках одного шарда не делать больше 1 ke+mv, тк реплики друг в друга не должны реплицировать данные. В одну пишешь, и она реплицируется

ну пока охота сделать все проще и обойтись без Distributed MergeTree, то есть один шард с тремя репликами, так как проект еще не запустили, и нагрузка не будет космической, главное сделать более надежной

<yandex>
    <remote_servers>
        <replcluster>
            <shard>
                <replica>
                    <host>chi-clickhouse-production-replcluster-0-0</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <host>chi-clickhouse-production-replcluster-0-1</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <host>chi-clickhouse-production-replcluster-0-2</host>
                    <port>9000</port>
                </replica>
            </shard>
        </replcluster>
    </remote_servers>
</yandex>

08:26пожаловаться #7

Д

Dj

короче, distributed join distributed работает нормально если ключ шардирования одинаковый

## ТОЖЕ самое но через Distributed t2d 
set distributed_product_mode = 'local'
select t1d.*, t2d.* from t1d t1d left join t2d as t2d using A

Это будет работать если две t2d. и t1d. Distributed таблицы которые смотрят на 2 MergeTree таблицы на двух серверах?

08:39пожаловаться #8

Д

global join как работает и что это?

Artur Beglaryan in ClickHouse не тормозит

08:59пожаловаться #9

AB

Данияр

global join как работает и что это?

https://clickhouse.tech/docs/ru/sql-reference/statements/select/join/#global-join

clickhouse.tech

Секция JOIN | Документация ClickHouse

Секция JOIN Join создаёт новую таблицу путем объединения столбцов из одной или нескольких таблиц с использованием общих

Bral Bral in ClickHouse не тормозит

09:12пожаловаться #10

BB

Подскажите : имеется nginx+django+chproxy+clickhouse. Джанго отправляется запрос в кликхаус через chproxy. В кликхаусе дистрибьютед таблица, которая обращается к нескольким серверам . В последнее время , при выполнении запроса больше 5 мин стало выдавать ошибку 499 (client closed request). Очень напрягает 300 секунд- похоже на какое-то дефаулт значение . Параметры receive_timeout и send_timeout, tcp_keep_alive в users.xmp поставил значительно больше , в system.settings эти значения вижу . В chproxy параметры явно больше 300с отвечающие за таймаут. Причем запрос напрямую, через кхклиент - отрабатывает как надо . Что я ещё мог забыть в конфиге кликхауса?

09:27пожаловаться #11

D

Denny Crane [not a Yandex bot] in ClickHouse не тормозит

Данияр

Это будет работать если две t2d. и t1d. Distributed таблицы которые смотрят на 2 MergeTree таблицы на двух серверах?

https://t.me/clickhouse_ru/168095 вот же.

не понял вопроса

https://gist.github.com/den-crane/55f4b8d7caf9b644a347a62729be3848

09:39пожаловаться #12

Д

Denny Crane [not a Yandex bot] in ClickHouse не тормозит

Dj

https://t.me/clickhouse_ru/168095 вот же.

не понял вопроса

https://gist.github.com/den-crane/55f4b8d7caf9b644a347a62729be3848

он ошибку выкидывает ищет distributed таблицу на одном из его шардов

Илья Максимов... in ClickHouse не тормозит

09:39пожаловаться #13

ИМ

Bral Bral

Подскажите : имеется nginx+django+chproxy+clickhouse. Джанго отправляется запрос в кликхаус через chproxy. В кликхаусе дистрибьютед таблица, которая обращается к нескольким серверам . В последнее время , при выполнении запроса больше 5 мин стало выдавать ошибку 499 (client closed request). Очень напрягает 300 секунд- похоже на какое-то дефаулт значение . Параметры receive_timeout и send_timeout, tcp_keep_alive в users.xmp поставил значительно больше , в system.settings эти значения вижу . В chproxy параметры явно больше 300с отвечающие за таймаут. Причем запрос напрямую, через кхклиент - отрабатывает как надо . Что я ещё мог забыть в конфиге кликхауса?

Кеши используете?

09:42пожаловаться #14

Д

в схеме default у меня 2 distributed таблицы каждая из которых смотрит на 2 сервера. При выполнении join двух distributed таблиц он выкидывает ошибку что не может найти distributed таблицу на одном из его серверов

Google Groups allows you to create and participate in online forums and email-based groups with a rich experience for community conversations.

09:44пожаловаться #15

A

Artur in ClickHouse не тормозит

Добрый день. У кого нибудь есть опыт переноса данных из Influxdb в CH?
Какая структура данный на стороне CH наиболее подходящая? Главный вопрос как лучше хранить набор тегов (key:value набор тегов у метрик зарание неизвестен).
Сейчас мы выбираем из нескольких вариантов
1. Использовать одну таблицу и динамически добавлять новые колонки на каждый новый тег. Как CH себя ведет при частом обновлении таблиц? Бедет ли такой вариант работат? Есть риск что получиться таблица с очень большим набором колонок.
2. Использовать две таблицы одну для метрик и одно для тегов как предложено здесь (https://groups.google.com/forum/#!searchin/clickhouse//clickhouse/pyy0OW12JKM/hlfvz-CVAQAJ)
1 table have 3 columns
key Int32,
timestamp DateTime
value Float64) order by (key, timestamp)
2 table have 2 columns: key - tag

Не очень понятно как заполнять вторую таблицу: key - tag
Видимо придется создавать отдельный кеш поверх это палицы на запись

3. Просто поесть все теги в Array или Json

Google

Google Groups

Dmitry Detkov in ClickHouse не тормозит

10:15пожаловаться #16

DD

Всем привет. подскажите есть ли механизмы или инструменты для создания инкрементальных бекапов?