Телеграмм чат группы clickhouse_ru страница 8173

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ClickHouse не тормозит

4264 membersпожаловаться на группу

2020 September 04

DC

Denny Crane [not a Y... in ClickHouse не тормозит

Привет всем. вопрос пытаюсь загрузить данные так :
cat report_labexa_main_requests.csv | clickhouse-client -h 172.20.140.44 --format_csv_delimiter=";" --format_csv_allow_single_quotes=0 --query="INSERT INTO reports.click_report_labexa_main_requests_log FORMAT CSV"
и получаю ошибку через несколько секунд Killed файл на 6млн строк.
Как понять по какой именно причине не загрузилось?

sudo dmesg|tail -20
скорее всего убит oomkiller

Попробуйте --input_format_parallel_parsing=0

источник

10:37пожаловаться #1

DC

Denny Crane [not a Y... in ClickHouse не тормозит

Многопоточный парсинг кушает память но парсит csv значительно быстрее.
Сколько памяти?

источник

10:38пожаловаться #2

DK

Dmitry Kozeev in ClickHouse не тормозит

16 гигов и ничего кроме клика там нет

источник

10:39пожаловаться #3

DC

Denny Crane [not a Y... in ClickHouse не тормозит

16 гигов и ничего кроме клика там нет

Гм а ошибка как выглядит? убит процесс клиента? Или сессия сервера?

источник

10:45пожаловаться #4

DK

Dmitry Kozeev in ClickHouse не тормозит

решил перезагрузить машину и пробовать еще раз и теперь проблемы с самим csv спасибо про oomkiller видимо действительно был убит теперь ошибки killed нет.

источник

10:48пожаловаться #5

ДА

Давид Авагимян... in ClickHouse не тормозит

Всем привет. Имеется таблица с данными пользователями размер таблицы около 8 миллиардов и постоянно растет. Есть поле uid и attribute_id. Задача состоит в том что нужно получить другие атрибуты у пользователя по какому то конкретному. Пример: Взять всех пользователей с атрибутов А и посчитать у них суммы других атрибутов. Может ли кх такую задачу решить ?

источник

11:39пожаловаться #6

SA

Sergei Alekseev in ClickHouse не тормозит

Добрый день! никто не сталкивался с таким: StorageKafka (Trackers): Can't get assignment. It can be caused by some issue with consumer group (not enough partitions?). Will keep trying.

источник

11:44пожаловаться #7

ПП

Павел Прохоров... in ClickHouse не тормозит

Всем привет!
Как кто решает проблему консистентности данных? Есть ли best practice?
К примеру - при заливке куска данных, хочется чтобы был некий аналог транзакции.

источник

11:46пожаловаться #8

S

Slach in ClickHouse не тормозит

Павел Прохоров

Всем привет!
Как кто решает проблему консистентности данных? Есть ли best practice?
К примеру - при заливке куска данных, хочется чтобы был некий аналог транзакции.

транзакция ... и консистентность две немного разные вещи ;)

консистентность обеспечивается не транзакциями как таковыми, а уровнями изолированности транзакций

с этой точки зрения в clickhouse с консистентностью все впорядке
пока клиенту не сказали что INSERT прошел
SELECT не будут видеть данные которые идут в INSERT

ну и кроме физической консистентности, есть еще и логическая
типа когда ваши данные и связи между данными в разных таблицах, не противоречивы по логике приложения

но best practice в clickhouse это ШИРОКИЕ ТАБЛИЦЫ с большим кол-вом столбцов + словари если нужна star schema для данных

источник

12:32пожаловаться #9

НГ

Николай Гусев... in ClickHouse не тормозит

Добрый день!

Мне нужно вывести столбец с датой и столбец со значением даты предыдущей строки. Каким образом это можно реализовать в ClickHouse?

Спасибо

источник

12:46пожаловаться #10

ПП

Павел Прохоров... in ClickHouse не тормозит

транзакция ... и консистентность две немного разные вещи ;)

консистентность обеспечивается не транзакциями как таковыми, а уровнями изолированности транзакций

с этой точки зрения в clickhouse с консистентностью все впорядке
пока клиенту не сказали что INSERT прошел
SELECT не будут видеть данные которые идут в INSERT

ну и кроме физической консистентности, есть еще и логическая
типа когда ваши данные и связи между данными в разных таблицах, не противоречивы по логике приложения

но best practice в clickhouse это ШИРОКИЕ ТАБЛИЦЫ с большим кол-вом столбцов + словари если нужна star schema для данных

Спасибо!
Я неправильно сформулировал
У меня есть кусок данных, который я лью. Это явно несколько батчей инсертов.
А если я хочу чтобы он был доступен только после окончания всей заливки?

источник

12:50пожаловаться #11

S

Slach in ClickHouse не тормозит

Павел Прохоров

Спасибо!
Я неправильно сформулировал
У меня есть кусок данных, который я лью. Это явно несколько батчей инсертов.
А если я хочу чтобы он был доступен только после окончания всей заливки?

лейте неделимые данные ОДНИМ INSERT ЗАПРОСОМ...
и смотрите настройки (можно переопределить в clickhouse-client через параметры коммандной строки или через INSERT ... SETTINGS попробуйте, но не факт что сработает)
https://clickhouse.tech/docs/en/operations/settings/settings/#settings-max_insert_block_size

по умолчанию у вас размер неделимого батча 1 миллион строк

clickhouse.tech

Settings | ClickHouse Documentation

Settings distributed_product_mode Changes the behavior of distributed subqueries. ClickHouse applies this setting when t

источник

12:55пожаловаться #12

S

Slach in ClickHouse не тормозит

Павел Прохоров

Спасибо!
Я неправильно сформулировал
У меня есть кусок данных, который я лью. Это явно несколько батчей инсертов.
А если я хочу чтобы он был доступен только после окончания всей заливки?

если 1 INSERT у вас меньше миллиона строк, то просто лейте одним INSERT неделимый блок без изменения настроек

источник

12:56пожаловаться #13

ПП

Павел Прохоров... in ClickHouse не тормозит

лейте неделимые данные ОДНИМ INSERT ЗАПРОСОМ...
и смотрите настройки (можно переопределить в clickhouse-client через параметры коммандной строки или через INSERT ... SETTINGS попробуйте, но не факт что сработает)
https://clickhouse.tech/docs/en/operations/settings/settings/#settings-max_insert_block_size

по умолчанию у вас размер неделимого батча 1 миллион строк

clickhouse.tech

Settings | ClickHouse Documentation

Settings distributed_product_mode Changes the behavior of distributed subqueries. ClickHouse applies this setting when t

Ага, спасибо, посмотрю настройки
А вот что если нет? Выхода нет?

источник

12:58пожаловаться #14

S

Slach in ClickHouse не тормозит

Павел Прохоров

Ага, спасибо, посмотрю настройки
А вот что если нет? Выхода нет?

перефразируйте, не понял

источник

13:00пожаловаться #15

ПП

Павел Прохоров... in ClickHouse не тормозит

перефразируйте, не понял

есть таблица, в ней логи
каждый день заливается порция логов, миллионы записей
есть ли способы сделать порцию логов как бы в транзакции для клиента? чтобы клиент ее только целиком увидел
вариант поместить эту порцию в один батч понял, но там больше миллиона

источник

13:02пожаловаться #16

S

Slach in ClickHouse не тормозит

Павел Прохоров

есть таблица, в ней логи
каждый день заливается порция логов, миллионы записей
есть ли способы сделать порцию логов как бы в транзакции для клиента? чтобы клиент ее только целиком увидел
вариант поместить эту порцию в один батч понял, но там больше миллиона

ну увеличьте настройки, я ссылку дал
и лейте больше миллиона одним INSERT
если у вас там данные в логах по первичному ключу отсортированы, то оно нормально вставляться будет

источник

13:09пожаловаться #17

AK

Aleksey Korsakov in ClickHouse не тормозит

Всем привет! Подскажите по созданию MATERIALIZED VIEW и AggregatingMergeTree. Хочу использовать AggregatingMergeTree в представлении для группировки данных по полям UId, SId, Name, с дополнительными условиями - минимальным timestamp и минимальным непустым значением Ver.

create MATERIALIZED VIEW UidSid_MV
engine = AggregatingMergeTree()
PARTITION BY toYYYYMM(Timestamp)
PRIMARY KEY SId
ORDER BY SId
SETTINGS index_granularity = 8192
POPULATE
as
SELECT
min(Timestamp) Timestamp,
UId,
SId,
Name,
minIf(Ver, Ver <> '') Ver
FROM table
GROUP BY UId, SId, Name
ORDER BY UId, SId;

Создал это Mat View, и ещё одно с таким же запросом, но с движком MergeTree, чтобы сравнить производительность. Результаты производительности примерно одинаковы, если делать "SELECT *" по одному конкретному UId (1.2-1.5 сек в моем случае в каждом запросе). Я ожидал лучшую производительность в случае использования AggregatingMergeTree. Почему так? Может я неверно написал запрос?

источник

13:44пожаловаться #18

VS

Vladyslav Sakun in ClickHouse не тормозит

Aleksey Korsakov

Всем привет! Подскажите по созданию MATERIALIZED VIEW и AggregatingMergeTree. Хочу использовать AggregatingMergeTree в представлении для группировки данных по полям UId, SId, Name, с дополнительными условиями - минимальным timestamp и минимальным непустым значением Ver.

create MATERIALIZED VIEW UidSid_MV
engine = AggregatingMergeTree()
PARTITION BY toYYYYMM(Timestamp)
PRIMARY KEY SId
ORDER BY SId
SETTINGS index_granularity = 8192
POPULATE
as
SELECT
min(Timestamp) Timestamp,
UId,
SId,
Name,
minIf(Ver, Ver <> '') Ver
FROM table
GROUP BY UId, SId, Name
ORDER BY UId, SId;

Создал это Mat View, и ещё одно с таким же запросом, но с движком MergeTree, чтобы сравнить производительность. Результаты производительности примерно одинаковы, если делать "SELECT *" по одному конкретному UId (1.2-1.5 сек в моем случае в каждом запросе). Я ожидал лучшую производительность в случае использования AggregatingMergeTree. Почему так? Может я неверно написал запрос?

Зачем Вы разделяете PRIMARY KEY и ORDER BY, если они одинаковые?
По какому полю делаете выборку?
Сколько записей в таблице?

источник

13:52пожаловаться #19

DO

Dmitrii Oslavskii in ClickHouse не тормозит

всем привет. а есть какой-то механизм ротации логов в system.query_log из коробки? если нет, кто как решает данный вопрос?

источник

14:10пожаловаться #20