Size: a a a

ClickHouse не тормозит

2020 July 06

D

Dj in ClickHouse не тормозит
Denny Crane (I don't work at Yandex (never did))
да точно tuple(Array(tuple(IPV6))) так сразу в PG и заработает 🙂
вообще если это не на самом верхнем уровне, должно работать ок, sql парсится на сервере все равно...
главное чтоб возвращаемые типы сходились
источник
2020 July 07

P

Pavel in ClickHouse не тормозит
всем привет, есть ли нормальные практики как лучше заливать в в clickhouse данные, через очереди или … как лучше это делать? Суть в том, что я агрегирую данные для аналитики с MYSQL по крону раз в X минут,  и пушу их на ClickHouse просто прям в порт ClickHouse. Не  так давно поймал проблему, что записи дублировались, ну заходили по две, ранее такого не было, по сути ошибка больше в логике. И задался вопросом о каких то нормальных практиках решения задач как у меня.
Спасибо!
источник

SC

Smoked Cheese in ClickHouse не тормозит
обычно складывают данные в какую-нибудь очередь типа кафки и потом пачками оттуда выгребают
источник

SC

Smoked Cheese in ClickHouse не тормозит
если у тебя источник mysql, то можешь выгребать пачками по крону, ставя в условие какой-нибудь datetime чтоб только новые данные получать
источник

SC

Smoked Cheese in ClickHouse не тормозит
можно прям из кх коннектится к мускулю
источник

D

Dj in ClickHouse не тормозит
Pavel
всем привет, есть ли нормальные практики как лучше заливать в в clickhouse данные, через очереди или … как лучше это делать? Суть в том, что я агрегирую данные для аналитики с MYSQL по крону раз в X минут,  и пушу их на ClickHouse просто прям в порт ClickHouse. Не  так давно поймал проблему, что записи дублировались, ну заходили по две, ранее такого не было, по сути ошибка больше в логике. И задался вопросом о каких то нормальных практиках решения задач как у меня.
Спасибо!
ещё можно сделать replicatedMT и тогда если вставляющая логика всегда батчит одинаково, повторные инсерты не будут иметь эффекта
источник

P

Pavel in ClickHouse не тормозит
Dj
ещё можно сделать replicatedMT и тогда если вставляющая логика всегда батчит одинаково, повторные инсерты не будут иметь эффекта
спасибо почитаю что такое replicatedMT
источник

AP

Alexander Petrovsky in ClickHouse не тормозит
Коллеги, крайне дилетантский вопрос, у меня есть опыт с vertica и условно ожидаю того же от ch. В vertica если ноду ввели в кластер она автоматически получает настройки пользователей, квоый и естественно часть данных. А как это выглядит в ch? Есть replicated таблицы, а если ли полная кластеризация, чтоб скажем системные таблицы и данные отреплицировать с каким-то фактором репликации? Или надо на все делать replicated таблицы?
источник

DT

Dmitry Titov in ClickHouse не тормозит
Alexander Petrovsky
Коллеги, крайне дилетантский вопрос, у меня есть опыт с vertica и условно ожидаю того же от ch. В vertica если ноду ввели в кластер она автоматически получает настройки пользователей, квоый и естественно часть данных. А как это выглядит в ch? Есть replicated таблицы, а если ли полная кластеризация, чтоб скажем системные таблицы и данные отреплицировать с каким-то фактором репликации? Или надо на все делать replicated таблицы?
В кликхаусе каждая нода сама по себе, но время от времени они выполняют совместно запросы
источник

DT

Dmitry Titov in ClickHouse не тормозит
Так что юзеры и тд нужно прописывать на каждой ноде кх
источник

AP

Alexander Petrovsky in ClickHouse не тормозит
Ага, да, я понял, спасибо!
источник

SC

Smoked Cheese in ClickHouse не тормозит
ну и настройки хранятся в конфиг файлах, юзеров тоже через файлы можно создавать
источник

SC

Smoked Cheese in ClickHouse не тормозит
так проще провижнить ИМХО
источник

D

Dj in ClickHouse не тормозит
Alexander Petrovsky
Коллеги, крайне дилетантский вопрос, у меня есть опыт с vertica и условно ожидаю того же от ch. В vertica если ноду ввели в кластер она автоматически получает настройки пользователей, квоый и естественно часть данных. А как это выглядит в ch? Есть replicated таблицы, а если ли полная кластеризация, чтоб скажем системные таблицы и данные отреплицировать с каким-то фактором репликации? Или надо на все делать replicated таблицы?
>В vertica если ноду ввели в кластер она автоматически получает настройки пользователей, квоый и естественно часть данных. А как это выглядит в ch?

нет, у каждой ноды свой конфиг, все руками/внешними скриптами


> Есть replicated таблицы, а если ли полная кластеризация, чтоб скажем системные таблицы и данные отредактировать с каким-то фактором репликации?

нет, системные таблицы не создаются руками, они на лету создаются при старте из скл файлов и дата файлов
кластер вертики - это распределенная система с централизованной конфигурацией
кластер КХ - это набор нодов с индивидуальными конфигурациями которые могут общатся между собой
источник

AP

Alexander Petrovsky in ClickHouse не тормозит
Ок, понял, спасибо!
источник

DT

Dmitry Titov in ClickHouse не тормозит
Решардинг соответственно тоже ручками. Но есть репликация и возможность делать запрос сразу к нескольким нодам кх
источник

yl

ye lyn in ClickHouse не тормозит
oh well
источник

S

Slach in ClickHouse не тормозит
Vladislav
На старте мобильного приложения  нет доступа к некоторым параметрам(например - не проинициализированы некоторые SDK). Ждать полной инициализации мы не можем себе позволить, т.к. речь идет про первые секунды запуска и эти данные очень важны особенно когда мы выясняем причины не загрузок. Конечно с помощью подзапросов можно решить эту ситуацию, но не во всех вариантах получается хорошая производительность.  
Совсем частный случай - на старте приложения не доступен рекламный идентификатор пользователя, который у нас используется как primary key. Мы также генерируем свой идентификатор и по нему мы можем соотнести из будущих данных и дополнить. Использовать же свой идентификатор в  качестве primary key совсем не оптимально, т.к. все другие источники данных с которыми выполняются join дают только рекламный идентификатор и неплохо иметь именно его в качестве primary key.
Варианты решения конечно есть разной степени не удобства, поэтому интересовался возможностью просто выполнить update
вставляйте такие данные в отдельную таблицу и обогащайте основную таблицу через  INSERT INTO ... SELECT ...
А для выборок делайте engine=Merge()
источник

S

Slach in ClickHouse не тормозит
Alexander Petrovsky
Коллеги, крайне дилетантский вопрос, у меня есть опыт с vertica и условно ожидаю того же от ch. В vertica если ноду ввели в кластер она автоматически получает настройки пользователей, квоый и естественно часть данных. А как это выглядит в ch? Есть replicated таблицы, а если ли полная кластеризация, чтоб скажем системные таблицы и данные отреплицировать с каким-то фактором репликации? Или надо на все делать replicated таблицы?
источник

S

Slach in ClickHouse не тормозит
всем привет, коллеги подскажите
а в какой момент в system.mutations выставляется поле is_done?

мутации это постоянный процесс ведь? или одноразовый?
и если я хочу форсануть мутацию на небольшой таблице в 1.5 Gb
то может ли мне в этом помочь OPTIMIZE TABLE .. FINAL?
источник