Size: a a a

ClickHouse не тормозит

2021 January 27

ЕО

Евгений Овчинников... in ClickHouse не тормозит
Vitaly Baranov
- здесь можно еще имя пользователя и пароль добавить
были такие мысли но в доке не нашел этого
источник

VB

Vitaly Baranov in ClickHouse не тормозит
Евгений Овчинников
не нашел про юзера и пароль там ничего, есть поля база, хост и порт.
Документация: https://clickhouse.tech/docs/en/engines/table-engines/special/distributed/, см.
The parameters host, port, and optionally user, password, secure, compression are specified for each server
источник

ЕО

Евгений Овчинников... in ClickHouse не тормозит
спасибо
источник

M

M in ClickHouse не тормозит
M
Всем привет!

Подскажите, пожалуйста, есть ли какой-нибудь не очень извращенный способ проставить для каждого элемента последовательности номер его последовательности:

SELECT
   [1, 0, 0, 1, 1, 1, 0, 1, 1] AS input_arr,
   [1, 2, 2, 3, 3, 3, 4, 5, 5] as res


res - это ожидаемый результат
Вдруг кому пригодится)

SELECT
   [1, 0, 0, 1, 1, 1, 0, 1, 1] AS arr
   ,arrayMap((val, ind) -> if(arr[ind] != arr[if(ind - 1 = 0, 1, ind - 1)], 1, 0) , arr, arrayEnumerate(arr)) AS isChangedArr
   ,arrayCumSum(isChangedArr)

Или может существует готовая функция, которая может такое посчитать?
источник

EY

Eugene Yak in ClickHouse не тормозит
Привет, подскажите, пожалуйста, такой вопрос, мы начали внедрять кликхауз как хранилище-архив и хотим переносить в него старые данные из постгреса. Ну и глядим на ReplicatedMergeTree или ReplicatedReplacingMergeTree. Но перед тем как удалять эти данные, хотим удостоверится, что все хорошо, и сравнить их. Но в документации пишут, что данные не факт, что сразу будут правильными, до того, как смержатся, что вроде как есть модификатор Final, но говорят, что использовать не нужно в общем случае. Для нас это новая база и пока не очень понятно, как сравнить, насколько быстро происходит репликация и дедупликация, если она есть, поможет ли FINAL и нужно ли вообще сравнивать или можно просто положиться, и если база говорит, что ок, то действительно твсе ок, а мы фигнёй страдаем? Может кто популярно подсказать?) Спасибо
источник

A

Alex in ClickHouse не тормозит
Eugene Yak
Привет, подскажите, пожалуйста, такой вопрос, мы начали внедрять кликхауз как хранилище-архив и хотим переносить в него старые данные из постгреса. Ну и глядим на ReplicatedMergeTree или ReplicatedReplacingMergeTree. Но перед тем как удалять эти данные, хотим удостоверится, что все хорошо, и сравнить их. Но в документации пишут, что данные не факт, что сразу будут правильными, до того, как смержатся, что вроде как есть модификатор Final, но говорят, что использовать не нужно в общем случае. Для нас это новая база и пока не очень понятно, как сравнить, насколько быстро происходит репликация и дедупликация, если она есть, поможет ли FINAL и нужно ли вообще сравнивать или можно просто положиться, и если база говорит, что ок, то действительно твсе ок, а мы фигнёй страдаем? Может кто популярно подсказать?) Спасибо
насколько знаю гарантий мержа никто не дает, можно делать мерж вручную ввиде OPTIMIZE ( https://clickhouse.tech/docs/ru/sql-reference/statements/optimize/ )
просто используя финал вы в реалтайме делаете искусственный мерж, на больших данных с финалом не стоит работать, большое отличие по скорости выполнения запросов,  кто-то здесь выкладывал результаты бенчмарков
источник

O

Olga in ClickHouse не тормозит
Всем привет!

Ищем Senior Clickhouse Developer в компанию "Diceus",Kiev

На момент карантина полностью удаленно.

Проект: являет собой умную CRM system-у которая позволяет оценивать и анализировать желания людей на основе их запросов, тегов, поисков, слов и т.д., в целом анализируя всю intent dat’у (данные о намерениях - это собираемая поведенческая информация об онлайн-действиях человека, объединяющая как тематические, так и контекстные данные) в любом уголке всемирной паутины, мобильной программы или обменом почтой и тем самым предоставлять альтернативное решение, действие или подсказку.



Requirements:

• 3+ experience with ClickHouse.

• 3+ year CH experience with >10TB data size on production.

• Being able to manage CH cluster at production (query optimization, topology and table design, version upgrades, adding/removing nodes, workload specific server/client configurations, etc)

• Designing & updating data pipeline to manage data loss, availability, sustainability etc.


Кому интересно, пишите в личку))

Хорошего всем дня)
источник

EY

Eugene Yak in ClickHouse не тормозит
Alex
насколько знаю гарантий мержа никто не дает, можно делать мерж вручную ввиде OPTIMIZE ( https://clickhouse.tech/docs/ru/sql-reference/statements/optimize/ )
просто используя финал вы в реалтайме делаете искусственный мерж, на больших данных с финалом не стоит работать, большое отличие по скорости выполнения запросов,  кто-то здесь выкладывал результаты бенчмарков
Спасибо за ответ, ну мы планируем по сути делать переброс данных за месяц, и потом сравнивать их, по количеству это примерно четверть миллиарда за раз. Если final будет тормозить, он будет тормозить только этот запрос? Или другие тоже в это время?
источник

МЧ

Максим Чагин... in ClickHouse не тормозит
Добрый день! Есть таблица вида:
CREATE TABLE test.t1 (EventDate Date, Value Int32) ENGINE = MergeTree PARTITION BY toYYYYMM(EventDate) ORDER BY EventDate SETTINGS index_granularity = 8192

Можно ли добавить TTL для таблицы?
---
Пробовал так
ALTER TABLE test.t1
MODIFY TTL EventDate + INTERVAL 1 MONTH TO DISK 'hdd'

выдаёт ошибку
Code: 450, e.displayText() = DB::Exception: No such disk hdd for given storage policy. (version 20.12.5.14 (official build))

---
Если делать так
ALTER TABLE test.t1
MODIFY TTL EventDate + INTERVAL 1 MONTH TO DISK 'hdd'
MODIFY SETTINGS storage_policy='hdd_policy'

то такую ошибку кидает
Code: 62, e.displayText() = DB::Exception: Syntax error: failed at position 104 ('MODIFY') (line 3, col 1): MODIFY SETTINGS storage_policy='hdd_policy'. Expected one of: INTO OUTFILE, Comma, SETTINGS, FORMAT, token (version 20.12.5.14 (official build))

---
Можно ли добавить TTL после создания таблицы?
источник

A

Alex in ClickHouse не тормозит
Eugene Yak
Спасибо за ответ, ну мы планируем по сути делать переброс данных за месяц, и потом сравнивать их, по количеству это примерно четверть миллиарда за раз. Если final будет тормозить, он будет тормозить только этот запрос? Или другие тоже в это время?
если Вы просто планируете делать переброс тогда зачем вам Replacing?  Denny Crane из Altinity говорил цитирую:
"ну на миллиарде записей у меня синтетический запрос работал в 100 раз медленее с final",
мне не очень понравилась использовать replacing для изменяющихся данных, лучше юзать буфер, но это субъективно и зависит от задачи
источник

EY

Eugene Yak in ClickHouse не тормозит
Alex
если Вы просто планируете делать переброс тогда зачем вам Replacing?  Denny Crane из Altinity говорил цитирую:
"ну на миллиарде записей у меня синтетический запрос работал в 100 раз медленее с final",
мне не очень понравилась использовать replacing для изменяющихся данных, лучше юзать буфер, но это субъективно и зависит от задачи
Ну если просто переброс и все будет гладко, то да, по идее не нужно, но скорее всего кх будет развиваться дальше, чем только хранилище старых данных, и там уже движки вроде replacing пока что выглядят интересно, но вот как понимать, насколько данные актуальные не ясно пока что, а на проде испытывать как-то не хочется, а вот эти мелочи мешают
источник

A

Alex in ClickHouse не тормозит
Eugene Yak
Ну если просто переброс и все будет гладко, то да, по идее не нужно, но скорее всего кх будет развиваться дальше, чем только хранилище старых данных, и там уже движки вроде replacing пока что выглядят интересно, но вот как понимать, насколько данные актуальные не ясно пока что, а на проде испытывать как-то не хочется, а вот эти мелочи мешают
попробуйте несколько движков, замерьте скорость одного и того же запроса на одних и тех же данных и уже выберете) все таки ClickHouse это OLAP)
источник

ДП

Даниил Поздеев... in ClickHouse не тормозит
Ребят, привет! Подскажите, как записывать пандас датафрейм в табличку в кх?
источник

IK

Ilshat Karazbaev in ClickHouse не тормозит
Даниил Поздеев
Ребят, привет! Подскажите, как записывать пандас датафрейм в табличку в кх?
sqlalchemy мб подойдет
источник

V

Vladimir in ClickHouse не тормозит
Mishanya
а как будет раьотать конструкция

if(sum(my_column) < 0, 0, sum(my_column)) - будет дважды сумма вычисляться ?
Нет, должна один раз вычислиться. Еще можно вот так записать select if((sum(my_column) as ex) < 0 , 0, ex)
источник

AP

Al. P. in ClickHouse не тормозит
Максим Чагин
Добрый день! Есть таблица вида:
CREATE TABLE test.t1 (EventDate Date, Value Int32) ENGINE = MergeTree PARTITION BY toYYYYMM(EventDate) ORDER BY EventDate SETTINGS index_granularity = 8192

Можно ли добавить TTL для таблицы?
---
Пробовал так
ALTER TABLE test.t1
MODIFY TTL EventDate + INTERVAL 1 MONTH TO DISK 'hdd'

выдаёт ошибку
Code: 450, e.displayText() = DB::Exception: No such disk hdd for given storage policy. (version 20.12.5.14 (official build))

---
Если делать так
ALTER TABLE test.t1
MODIFY TTL EventDate + INTERVAL 1 MONTH TO DISK 'hdd'
MODIFY SETTINGS storage_policy='hdd_policy'

то такую ошибку кидает
Code: 62, e.displayText() = DB::Exception: Syntax error: failed at position 104 ('MODIFY') (line 3, col 1): MODIFY SETTINGS storage_policy='hdd_policy'. Expected one of: INTO OUTFILE, Comma, SETTINGS, FORMAT, token (version 20.12.5.14 (official build))

---
Можно ли добавить TTL после создания таблицы?
Вы, судя по всему, пытаетесь выгрузить данные после 1 месяца на диск “hdd”, но он не сконфигурирован. https://clickhouse.tech/docs/ru/engines/table-engines/mergetree-family/mergetree/#mergetree-table-ttl
источник

МЧ

Максим Чагин... in ClickHouse не тормозит
конфигурация такая
<storage_configuration>
 <disks>
   <hdd>
     <path>/mnt/hdd/clickhouse/</path>
   </hdd>
 </disks>
 <policies>
   <hdd_policy>
     <volumes>
       <hdd_volume>
         <disk>hdd</disk>
       </hdd_volume>
     </volumes>
   </hdd_policy>
 </policies>
</storage_configuration>
источник

AP

Al. P. in ClickHouse не тормозит
Максим Чагин
конфигурация такая
<storage_configuration>
 <disks>
   <hdd>
     <path>/mnt/hdd/clickhouse/</path>
   </hdd>
 </disks>
 <policies>
   <hdd_policy>
     <volumes>
       <hdd_volume>
         <disk>hdd</disk>
       </hdd_volume>
     </volumes>
   </hdd_policy>
 </policies>
</storage_configuration>
Тогда не знаю 🙂
источник

МЧ

Максим Чагин... in ClickHouse не тормозит
если создавать таблицу с TTL, то всё отрабатывает, а вот на уже созданную не получается
источник

AP

Al. P. in ClickHouse не тормозит
Максим Чагин
если создавать таблицу с TTL, то всё отрабатывает, а вот на уже созданную не получается
Может перегрузить кликхаус, чтобы он уж точно поднял новый конфиг (вдруг)?
источник