Size: a a a

ClickHouse не тормозит

2020 September 14

И

Иван in ClickHouse не тормозит
Gleb
Ну, у нас простой селект с условиями
Данные можно посчитать на каждом шарде независимо а результат сложить?
источник

PL

Piotr Liakhavets in ClickHouse не тормозит
Denny Crane [not a Yandex bot]
ch такое не умеет
угу, спутал
@gleb_kucherenko
SELECT a, toNullable(b) as b_n, uniq(c) from test.rollup GROUP BY a, b_n WITH CUBE having b_n is not null

видимо только так но за перф не поручусь - нуллаблы(
источник

И

Иван in ClickHouse не тормозит
Если вы не будете передавать данных много между шардами - шардирование работает
источник

ВЗ

Владимир Зайцев... in ClickHouse не тормозит
Доброго времени суток!

Использую odbc для коннекта к postgresql. Ситуация аналогична описанной в ишью:
https://github.com/ClickHouse/ClickHouse/issues/9363

Обрезаются данные в строках до 1023 символов.
Кто с таким сталкивался? Может есть какое решение, которое позволит в CH селектить из PG строки длиннее 1023 символов без обрезки?
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
финальная агрегация может быть самой долгой стадией, но ее можно выключить если шардирование позволяет
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Владимир Зайцев
Доброго времени суток!

Использую odbc для коннекта к postgresql. Ситуация аналогична описанной в ишью:
https://github.com/ClickHouse/ClickHouse/issues/9363

Обрезаются данные в строках до 1023 символов.
Кто с таким сталкивался? Может есть какое решение, которое позволит в CH селектить из PG строки длиннее 1023 символов без обрезки?
это баг, и он не починен. Видимо до 19й версии (до odbc-bridge) это работало (в бридже сломался параметр odbc_max_field_size)
источник

ВЗ

Владимир Зайцев... in ClickHouse не тормозит
Denny Crane [not a Yandex bot]
это баг, и он не починен. Видимо до 19й версии (до odbc-bridge) это работало (в бридже сломался параметр odbc_max_field_size)
Спасибо за информацию!

Получается, заставить работать длинные строки через odbc не получится и стоит попробовать, к примеру jdbc драйвер?
источник

DC

Denny Crane [not a Y... in ClickHouse не тормозит
Владимир Зайцев
Спасибо за информацию!

Получается, заставить работать длинные строки через odbc не получится и стоит попробовать, к примеру jdbc драйвер?
не знаю, не пробовал. Я вообще только http использую, потому что остальное слишком убого (по моим стандартам) и пользоваться всем кроме http нереально. Внутри яндекса похоже тоже только http, поэтому остальное им не интересно.
источник

ПВ

Павел Воробьев... in ClickHouse не тормозит
Denny Crane [not a Yandex bot]
если есть возможность то делать это до КХ (в ETL), если нет, то зависит от объемов, либо запросом, либо пересчитывать и перекладывать
Если говорить о пути "пересчитывать и перекладывать", то это нужно будет делать через REPLACE PARTITION?
источник

AK

Andrii Kakoichenko in ClickHouse не тормозит
Не видел в этом чате подобных сообщений, но надеюсь, что по адресу. Хочу найти специалиста для платных консультаций по СН (оцениваю объем в 10-20 часов)

Рассматриваем CH, как возможную замену текущему хранилищу исторических данных на MSSQL и оперативному на PostgreSQL с потоком данных в 500 млн строк в день с последующим ростом в 4 раза. Сфера применения - антифрод система, работающая в near real-time + обучение моделей и проверка гипотез для этой системы на исторических данных.

Мы уже провели ряд тестов CH (ещё раз спасибо ребятам из этого чата за подсказки), и сейчас нам нужна помощь, чтобы решить, подходит ли нам этот продукт (частично, как OLAP решение, или целиком, как HTAP решение), и если да, то
1) подобрать оптимальное железо
2) построить схему хранения данных
3) понять, какие инфраструктурные изменения нам потребуются, чтобы мигрировать на CH
4) составить вакансию DBA, и помочь с техническими собеседованиями

Прошу написать мне, если сами можете проконсультировать, или знаете, к кому обратиться
источник

KS

Konstantin Sverdlov in ClickHouse не тормозит
Peter Balba
Добрый день! Помогите, пожалуйста, разобраться со словарями. Хочется сделать словарь с источником http, который возвращает подобный json:
{
 "meta": {
   "page_size": 2,
   "page_number": 1,
   "sort": "id",
   "size": 2
 },
 "data": [
   {
     "id": 135230,
     "type": "site",
     "counts": {},
     "extra_fields": {},
     "relationships": {},
     "extra_attributes": {},
     "human_attributes": {
       "status": "On Air"
     },
     "attributes": {
       "name": "XX001",
       "status": "on_air",
       "p_lat": 50.11975,
       "p_lon": 83.21482,
       "id": 135230
     }
   },
   {
     "id": 135231,
     "type": "site",
     "counts": {},
     "extra_fields": {},
     "relationships": {},
     "extra_attributes": {},
     "human_attributes": {
       "status": "On Air"
     },
     "attributes": {
       "name": "XX002",
       "status": "under_installation",
       "p_lat": 51.11181,
       "p_lon": 83.19406,
       "id": 135231
     }
   }
 ],
 "included": [],
 "user": {
   "options": {}
 }
}
т.е. формат отличается от того, который выдает (и кушает) сам КХ. можно ли как-то описать откуда получать ключ и значения? В моём случае ключ из поля name (attributes), остальное - значения
Коллеги, привет. У меня сейчас подобная задача. Правильно я понимаю, что ничего кроме предобработки и пребразования этого JSON, например в csv, не придумать? А источник обновления словаря будет executable?
источник

DT

Dmitry Titov in ClickHouse не тормозит
Konstantin Sverdlov
Коллеги, привет. У меня сейчас подобная задача. Правильно я понимаю, что ничего кроме предобработки и пребразования этого JSON, например в csv, не придумать? А источник обновления словаря будет executable?
Ну можно в самом кх сделать такое преобразование, но это просто перекладывание из одного места в другое
источник

KS

Konstantin Sverdlov in ClickHouse не тормозит
а если делать на стороне КХ, то какого типа будет словарь? Какой будет FORMAT? Если внешний API всегда возвращает только один JSON объект... Причем в pretty json
источник

DT

Dmitry Titov in ClickHouse не тормозит
Konstantin Sverdlov
а если делать на стороне КХ, то какого типа будет словарь? Какой будет FORMAT? Если внешний API всегда возвращает только один JSON объект... Причем в pretty json
Хотя такой  Pretty JSON возможно не получится запихать в одно значение,
ну тогда можно скорее всего сделать через exec curl + jq
источник

СГ

Сергей Голод... in ClickHouse не тормозит
Andrii Kakoichenko
Не видел в этом чате подобных сообщений, но надеюсь, что по адресу. Хочу найти специалиста для платных консультаций по СН (оцениваю объем в 10-20 часов)

Рассматриваем CH, как возможную замену текущему хранилищу исторических данных на MSSQL и оперативному на PostgreSQL с потоком данных в 500 млн строк в день с последующим ростом в 4 раза. Сфера применения - антифрод система, работающая в near real-time + обучение моделей и проверка гипотез для этой системы на исторических данных.

Мы уже провели ряд тестов CH (ещё раз спасибо ребятам из этого чата за подсказки), и сейчас нам нужна помощь, чтобы решить, подходит ли нам этот продукт (частично, как OLAP решение, или целиком, как HTAP решение), и если да, то
1) подобрать оптимальное железо
2) построить схему хранения данных
3) понять, какие инфраструктурные изменения нам потребуются, чтобы мигрировать на CH
4) составить вакансию DBA, и помочь с техническими собеседованиями

Прошу написать мне, если сами можете проконсультировать, или знаете, к кому обратиться
Вы оцениваете объём перечисленной работы в 2 рабочих дня (~16 часов), если бы она выполнялась собственным сотрудником на полной ставке?
источник

AK

Andrii Kakoichenko in ClickHouse не тормозит
Сергей Голод
Вы оцениваете объём перечисленной работы в 2 рабочих дня (~16 часов), если бы она выполнялась собственным сотрудником на полной ставке?
Понимаю, что выглядит, как слишком мало. Но
1) это оценка, а не фиксированная цифра, и если она вырастет в несколько раз, то это ок
2) у меня несколько разные ожидания на консалтинг и работу фуллтайм сотрудника. Я не ожидаю от консультанта создания и настройки кластера под ключ.

Мне надо понять границы применимости технологии, проблемы, с которыми столкнемся при разработке сервисов, и способы их обхода, и, если будет понятно, что технология нам подходит, то помочь в найме фуллтайм сотрудника, который уже будет это все настраивать и оптимизировать
источник

СГ

Сергей Голод... in ClickHouse не тормозит
Andrii Kakoichenko
Понимаю, что выглядит, как слишком мало. Но
1) это оценка, а не фиксированная цифра, и если она вырастет в несколько раз, то это ок
2) у меня несколько разные ожидания на консалтинг и работу фуллтайм сотрудника. Я не ожидаю от консультанта создания и настройки кластера под ключ.

Мне надо понять границы применимости технологии, проблемы, с которыми столкнемся при разработке сервисов, и способы их обхода, и, если будет понятно, что технология нам подходит, то помочь в найме фуллтайм сотрудника, который уже будет это все настраивать и оптимизировать
И наверное также понимаете что оценка  ожидаемого дохода потенциальным специалистом (который сможет ответить на все поставленные вопросы и поможет с наймом), будет тоже пропорциональна этим 10-20часам. А верхнее ограничение по стоимости часа тоже есть? Или тут уже сколько фантазия исполнителя подскажет?
источник

AK

Andrii Kakoichenko in ClickHouse не тормозит
Сергей Голод
И наверное также понимаете что оценка  ожидаемого дохода потенциальным специалистом (который сможет ответить на все поставленные вопросы и поможет с наймом), будет тоже пропорциональна этим 10-20часам. А верхнее ограничение по стоимости часа тоже есть? Или тут уже сколько фантазия исполнителя подскажет?
Про пропорциональность дохода не сильно понял. Прошлые два раза, когда я работал с консультантами, но не по СН, а по другим технологиям, но в подобном формате, то просто фиксировалась стоимость часа, и мы работали, пока не решалась задача.
Касательно стоимости часа, считаю, что это лучше обсудить в личке)
источник

D

Dj in ClickHouse не тормозит
Andrii Kakoichenko
Понимаю, что выглядит, как слишком мало. Но
1) это оценка, а не фиксированная цифра, и если она вырастет в несколько раз, то это ок
2) у меня несколько разные ожидания на консалтинг и работу фуллтайм сотрудника. Я не ожидаю от консультанта создания и настройки кластера под ключ.

Мне надо понять границы применимости технологии, проблемы, с которыми столкнемся при разработке сервисов, и способы их обхода, и, если будет понятно, что технология нам подходит, то помочь в найме фуллтайм сотрудника, который уже будет это все настраивать и оптимизировать
спросите у этих товарищей лучше
https://clickhouse.tech/docs/ru/commercial/support/

если вам покажется что дорого, то хотя бы сможете озвучить свою цифру на основе их оценок...
источник

СГ

Сергей Голод... in ClickHouse не тормозит
Andrii Kakoichenko
Про пропорциональность дохода не сильно понял. Прошлые два раза, когда я работал с консультантами, но не по СН, а по другим технологиям, но в подобном формате, то просто фиксировалась стоимость часа, и мы работали, пока не решалась задача.
Касательно стоимости часа, считаю, что это лучше обсудить в личке)
да, я тоже думаю что это уже оффтопик
источник