Телеграмм чат группы clickhouse_ru страница 7788

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ClickHouse не тормозит

4077 membersпожаловаться на группу

2020 July 10

PL

Piotr Liakhavets in ClickHouse не тормозит

Благодарю, а выше юзер Костя, это не основной разработчик драйвера?

не в курсе
просто с т.зрения парадигмы - параметр - это подстановка в "данные" а не в тело запроса
например в where col = %s

а из какой то мускульной либы для псевдо-униформенности решили их разрешить как %s

оттуда и ползет на вид одинаковое задание в строках но разный физический смысл
* извините - оффтоп

источник

13:17пожаловаться #1

S

Slach in ClickHouse не тормозит

Vladyslav Sakun

Подскажите, какое максимально рекомендуемое число записей может содержать словарь?
А то в перспективе могут быть словари (MySQL) на 200-300 миллионов

в памяти словари, там до 1-2 миллионов максимум
для таких словарей как у вас
это не словари в таком случае
но есть такая вещь
https://clickhouse.tech/docs/en/sql-reference/dictionaries/external-dictionaries/external-dicts-dict-layout/#ssd-cache

clickhouse.tech

Storing Dictionaries in Memory | ClickHouse Documentation

Storing Dictionaries in Memory There are a variety of ways to store dictionaries in memory. We recommend flat, hashed an

источник

13:39пожаловаться #2

VS

Vladyslav Sakun in ClickHouse не тормозит

в памяти словари, там до 1-2 миллионов максимум
для таких словарей как у вас
это не словари в таком случае
но есть такая вещь
https://clickhouse.tech/docs/en/sql-reference/dictionaries/external-dictionaries/external-dicts-dict-layout/#ssd-cache

clickhouse.tech

Storing Dictionaries in Memory | ClickHouse Documentation

Storing Dictionaries in Memory There are a variety of ways to store dictionaries in memory. We recommend flat, hashed an

А если их держать не в MySQL БД, а в ClickHouse?

источник

13:42пожаловаться #3

S

Slach in ClickHouse не тормозит

Vladyslav Sakun

А если их держать не в MySQL БД, а в ClickHouse?

вы хорошо понимаете что такое "словарь"?

я правильно понимаю что у вас есть потребность в JOIN по двум здоровущим таблицам (миллионы записей) для выборки?

источник

13:58пожаловаться #4

SB

Serge Bash in ClickHouse не тормозит

Мигрируем данные из Террадаты (hive) в КХ, гоняя файлы Apache OCR. Как можно оптимизировать процесс? Использовать движок HDFS?

источник

14:03пожаловаться #5

VS

Vladyslav Sakun in ClickHouse не тормозит

вы хорошо понимаете что такое "словарь"?

я правильно понимаю что у вас есть потребность в JOIN по двум здоровущим таблицам (миллионы записей) для выборки?

Да я понимаю что такое словарь.
Думал что в зависимости от сорса словаря меняется занимается место в памяти.

И да мне нужно сделать JOIN по двум очень большим таблицам, одна из них более миллиарда записей имеет, а вторая как я уже и говорил 200-300 миллионов

источник

14:03пожаловаться #6

S

Slach in ClickHouse не тормозит

Vladyslav Sakun

Да я понимаю что такое словарь.
Думал что в зависимости от сорса словаря меняется занимается место в памяти.

И да мне нужно сделать JOIN по двум очень большим таблицам, одна из них более миллиарда записей имеет, а вторая как я уже и говорил 200-300 миллионов

место в памяти не от источника зависит а от layout
ssd_cache
оптимальный вариант "для очень больших словарей"
https://clickhouse.tech/docs/en/sql-reference/dictionaries/external-dictionaries/external-dicts-dict-layout/#ssd-cache

но слово SSD означает что работать будет более или менее только на нормальном железе

вообще наличие двух больших таблиц, говорит о том, что что-то спроектировано не так

почему данные из меньшей таблицы который такие большие?
что именно там за данные? почему у них такая кардинальность?

почему нельзя обогатить основную таблицу перед вставкой?
или почему нельзя в момент когда данные появляются в "малой" таблице
обогащать данные из основной таблицы вставляя через INSERT INTO ... SELECT в третью таблицу?

вместо JOIN
я бы конечно посоветовал dictGet ... оно более старое и надежное...

clickhouse.tech

Storing Dictionaries in Memory | ClickHouse Documentation

Storing Dictionaries in Memory There are a variety of ways to store dictionaries in memory. We recommend flat, hashed an

источник

14:09пожаловаться #7

VS

Vladyslav Sakun in ClickHouse не тормозит

место в памяти не от источника зависит а от layout
ssd_cache
оптимальный вариант "для очень больших словарей"
https://clickhouse.tech/docs/en/sql-reference/dictionaries/external-dictionaries/external-dicts-dict-layout/#ssd-cache

но слово SSD означает что работать будет более или менее только на нормальном железе

вообще наличие двух больших таблиц, говорит о том, что что-то спроектировано не так

почему данные из меньшей таблицы который такие большие?
что именно там за данные? почему у них такая кардинальность?

почему нельзя обогатить основную таблицу перед вставкой?
или почему нельзя в момент когда данные появляются в "малой" таблице
обогащать данные из основной таблицы вставляя через INSERT INTO ... SELECT в третью таблицу?

вместо JOIN
я бы конечно посоветовал dictGet ... оно более старое и надежное...

clickhouse.tech

Storing Dictionaries in Memory | ClickHouse Documentation

Storing Dictionaries in Memory There are a variety of ways to store dictionaries in memory. We recommend flat, hashed an

Если в 2-х словах, то в большой таблице аналитические данные о пользователе и его предпочтениях.
В этой таблице хранятся основные данные, поэтому она самая большая.
Есть много разных табличек словарей, для расшифровки тех или иных параметров пользователя, все они кроме 1 не очень большие (до 100к).
А есть одна табличка в которой хранятся email-пользователя.

источник

14:36пожаловаться #8

VS

Vladyslav Sakun in ClickHouse не тормозит

место в памяти не от источника зависит а от layout
ssd_cache
оптимальный вариант "для очень больших словарей"
https://clickhouse.tech/docs/en/sql-reference/dictionaries/external-dictionaries/external-dicts-dict-layout/#ssd-cache

но слово SSD означает что работать будет более или менее только на нормальном железе

вообще наличие двух больших таблиц, говорит о том, что что-то спроектировано не так

почему данные из меньшей таблицы который такие большие?
что именно там за данные? почему у них такая кардинальность?

почему нельзя обогатить основную таблицу перед вставкой?
или почему нельзя в момент когда данные появляются в "малой" таблице
обогащать данные из основной таблицы вставляя через INSERT INTO ... SELECT в третью таблицу?

вместо JOIN
я бы конечно посоветовал dictGet ... оно более старое и надежное...

clickhouse.tech

Storing Dictionaries in Memory | ClickHouse Documentation

Storing Dictionaries in Memory There are a variety of ways to store dictionaries in memory. We recommend flat, hashed an

Вместо JOIN используются только dictGet

источник

14:37пожаловаться #9

AZ

Artem Zuikov in ClickHouse не тормозит

в последних версиях есть оптимизация JOIN по словарю на базе dictGet, вручную переписывать JOIN-ы (где правой таблицей идет словарь) на dictGet не надо. Если только знаете какие-то issue, что что-то не работает или работает не так

источник

15:03пожаловаться #10

AZ

Artem Zuikov in ClickHouse не тормозит

в перспективе это может быть даже быстрее обычного dictGet - там надо улучшить работу со словарями, чтобы можно было забирать сразу несколько колонок по ключу

источник

15:05пожаловаться #11

S

Slach in ClickHouse не тормозит

Vladyslav Sakun

Если в 2-х словах, то в большой таблице аналитические данные о пользователе и его предпочтениях.
В этой таблице хранятся основные данные, поэтому она самая большая.
Есть много разных табличек словарей, для расшифровки тех или иных параметров пользователя, все они кроме 1 не очень большие (до 100к).
А есть одна табличка в которой хранятся email-пользователя.

ок,
получается в момент вставки "в основную таблицу" email уже известен
вы эти email потом как анализируете? по доменам разве что? или как то еще?
почему бы не снизить кардинальность и не вставлять только домены которые спокойно в LowCardinality(String) уложатся... даже если доменов миллионы

источник

15:22пожаловаться #12

VS

Vladyslav Sakun in ClickHouse не тормозит

ок,
получается в момент вставки "в основную таблицу" email уже известен
вы эти email потом как анализируете? по доменам разве что? или как то еще?
почему бы не снизить кардинальность и не вставлять только домены которые спокойно в LowCardinality(String) уложатся... даже если доменов миллионы

Всё немного сложнее, но в целом я для себя нашел ответ, спасибо

источник

15:30пожаловаться #13

АГ

Алексей Горячев... in ClickHouse не тормозит

Добрый день, кто-нибудь сталкивался с проблемой.
1. Создаю внешний словарь: CREATE DICTIONARY country ( ... )
PRIMARY KEY id
SOURCE(ODBC(table 'country' connection_string 'DSN=dsnname'))
LAYOUT(HASHED())
LIFETIME(MIN 300 MAX 360).
2. Создаю таблицу:
create table countrydict (id UInt64, name_ru String, name String, iso String, iso3 String) Engine = Dictionary(country)
3. Если делаю простой селект из этой таблицы, то всё отлично открывается, но если джойню эту таблицу к другой, то сервер падает с ошибкой:
DB::Exception: external dictionary 'country' not found: Cannot attach table countrydict from metadata file

источник

15:55пожаловаться #14

АГ

Алексей Горячев... in ClickHouse не тормозит

Версия КХ: version 20.4.6.53

источник

15:56пожаловаться #15

DC

Denny Crane (I don't... in ClickHouse не тормозит

Алексей Горячев

Добрый день, кто-нибудь сталкивался с проблемой.
1. Создаю внешний словарь: CREATE DICTIONARY country ( ... )
PRIMARY KEY id
SOURCE(ODBC(table 'country' connection_string 'DSN=dsnname'))
LAYOUT(HASHED())
LIFETIME(MIN 300 MAX 360).
2. Создаю таблицу:
create table countrydict (id UInt64, name_ru String, name String, iso String, iso3 String) Engine = Dictionary(country)
3. Если делаю простой селект из этой таблицы, то всё отлично открывается, но если джойню эту таблицу к другой, то сервер падает с ошибкой:
DB::Exception: external dictionary 'country' not found: Cannot attach table countrydict from metadata file

а зачем вы таблицу создаете? она не нужна, у словарь не из xml

источник

16:12пожаловаться #16

DC

Denny Crane (I don't... in ClickHouse не тормозит

у вас и так есть эта таблица : country

источник

16:13пожаловаться #17

АГ

Алексей Горячев... in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

у вас и так есть эта таблица : country

Понял. Попробую так. Просто на версии 20.3 все ок

источник

16:15пожаловаться #18

АГ

Алексей Горячев... in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

у вас и так есть эта таблица : country

Спасибо)

источник

16:15пожаловаться #19

DC

Denny Crane (I don't... in ClickHouse не тормозит

Алексей Горячев

Понял. Попробую так. Просто на версии 20.3 все ок

ну баг есть с Engine = Dictionary в 20.4+

источник

16:16пожаловаться #20