Size: a a a

ClickHouse не тормозит

2020 June 23

DV

Dmitry Vasiliev in ClickHouse не тормозит
в этой схеме приложение должно через
/latest/meta-data/iam/security-credentials/
получить временные крединталы, это автоматом работает с либами что AWS API предлагает
источник

AR

Alexander Ryzhenko in ClickHouse не тормозит
Можно ли как-то почистить метадату после удаления файлов таблиц с диска в ручную?
а то теперь не дает создать базы/таблицы с такимим именами, какие были у удаленных
источник

AT

Al T in ClickHouse не тормозит
скорее всего IAM roles не работают..
источник

AT

Al T in ClickHouse не тормозит
по моему там надо руками api keys указывать что печалька
источник

DT

Dmitry Titov in ClickHouse не тормозит
Alexander Ryzhenko
Можно ли как-то почистить метадату после удаления файлов таблиц с диска в ручную?
а то теперь не дает создать базы/таблицы с такимим именами, какие были у удаленных
можно clickhouse/metadata
источник

AR

Alexander Ryzhenko in ClickHouse не тормозит
Dmitry Titov
можно clickhouse/metadata
так просто :)
Спасибо
источник

AT

Al T in ClickHouse не тормозит
Dmitry Vasiliev
в этой схеме приложение должно через
/latest/meta-data/iam/security-credentials/
получить временные крединталы, это автоматом работает с либами что AWS API предлагает
http://host/bucket/*
http://host/bucket/*.csv

select * from s3('http://host/bucket/*', 'access_key_id', 'secret_access_key', 'CSV', 'column1 UInt32, column2 UInt32, column3 UInt32')
источник

AT

Al T in ClickHouse не тормозит
вот так попробуйте (если че это Денис виноват)
источник

DV

Dmitry Vasiliev in ClickHouse не тормозит
Al T
http://host/bucket/*
http://host/bucket/*.csv

select * from s3('http://host/bucket/*', 'access_key_id', 'secret_access_key', 'CSV', 'column1 UInt32, column2 UInt32, column3 UInt32')
ок 🙁
а где доку по s3 найти? 🙂
источник

AT

Al T in ClickHouse не тормозит
да сами колемся и плачем... доку нельзя найти доку можно написать ))
источник

DT

Dmitry Titov in ClickHouse не тормозит
Dmitry Vasiliev
ок 🙁
а где доку по s3 найти? 🙂
исходный код доступен на гитхабе)
источник

DV

Dmitry Vasiliev in ClickHouse не тормозит
Al T
да сами колемся и плачем... доку нельзя найти доку можно написать ))
ок, я примеры в тестах смотрю 😄
источник

AT

Al T in ClickHouse не тормозит
есть много чукчей-читателей, а нужен чукча-писатель...
источник

AT

Al T in ClickHouse не тормозит
простите меня дорогие чукчи за возможно некорректное высказывание
источник

DR

Dmitry Rodionov in ClickHouse не тормозит
Fuzzi Wuzzi
Добрый день. У меня есть таблица с вложенной структурой (Nested).  Движок kafka, формат сообщений protobuf. Появляется ошибка о том, что у двух массивов разные длины из-за чего нельзя вставить их в таблицу. Можно ли просмотреть полностью запрос которым он пытается вставить эти данные в таблицу? Т.к. данные которые уходят в кафку корректные и я  не пойму, где ошибка.
источник

AK

Alexey Kostarev in ClickHouse не тормозит
Добрый день коллеги
Обнаружим проблему в обрезанием кириллических строк в Dictionary
CREATE DICTIONARY dim_exec_state
(
   id UInt64,
   name String,
   parent_id UInt64 HIERARCHICAL
)
PRIMARY KEY id
SOURCE(ODBC(DB 'public' TABLE 'dim_exec_state' CONNECTION_STRING 'DSN=postgresConnection'))
LIFETIME(MIN 0 MAX 300)
LAYOUT(FLAT)

При запросе явно обрезает кириллицу
SELECT *
FROM odbc('DSN=postgresConnection;Servername=postgres', 'dim_exec_state')

┌─id─┬─name────────────────────────┬─parent_id─┐
│  1 │ На исполнении               │      ᴺᵁᴸᴸ │
│  2 │ На исполнении с нарушением  │         1 │
│  3 │ На исполнении с переносом с │         1 │
│  4 │ На исполнении без нарушени�  │         1 │
│  5 │ Исполнено                   │      ᴺᵁᴸᴸ │
│  6 │ Исполнено с нарушением сро�  │         5 │
│  7 │ Исполнено с переносом срок�  │         5 │
│  8 │ Исполнено без нарушения ср�  │         5 │
└────┴─────────────────────────────┴───────────┘

В Dictionary то же самое:
SELECT *
FROM default.dim_exec_state

┌─id─┬─name────────────────────────┬─parent_id─┐
│  1 │ На исполнении               │         0 │
│  2 │ На исполнении с нарушением  │         1 │
│  3 │ На исполнении с переносом с │         1 │
│  4 │ На исполнении без нарушени�  │         1 │
│  5 │ Исполнено                   │         0 │
│  6 │ Исполнено с нарушением сро�  │         5 │
│  7 │ Исполнено с переносом срок�  │         5 │
│  8 │ Исполнено без нарушения ср�  │         5 │
└────┴─────────────────────────────┴───────────┘

Объявление таблицы в Postgres:
CREATE TABLE public.dim_exec_state (
   id smallint NOT NULL,
   name character varying(50) NOT NULL,
   parent_id smallint
);

Такое ощущение, что 50 байт и режет
Куда копать?
источник

IF

Ilya Flakin in ClickHouse не тормозит
name character varying(50) NOT NULL  ?
источник

AS

Alexey Sibirtsev in ClickHouse не тормозит
Alexey Kostarev
Добрый день коллеги
Обнаружим проблему в обрезанием кириллических строк в Dictionary
CREATE DICTIONARY dim_exec_state
(
   id UInt64,
   name String,
   parent_id UInt64 HIERARCHICAL
)
PRIMARY KEY id
SOURCE(ODBC(DB 'public' TABLE 'dim_exec_state' CONNECTION_STRING 'DSN=postgresConnection'))
LIFETIME(MIN 0 MAX 300)
LAYOUT(FLAT)

При запросе явно обрезает кириллицу
SELECT *
FROM odbc('DSN=postgresConnection;Servername=postgres', 'dim_exec_state')

┌─id─┬─name────────────────────────┬─parent_id─┐
│  1 │ На исполнении               │      ᴺᵁᴸᴸ │
│  2 │ На исполнении с нарушением  │         1 │
│  3 │ На исполнении с переносом с │         1 │
│  4 │ На исполнении без нарушени�  │         1 │
│  5 │ Исполнено                   │      ᴺᵁᴸᴸ │
│  6 │ Исполнено с нарушением сро�  │         5 │
│  7 │ Исполнено с переносом срок�  │         5 │
│  8 │ Исполнено без нарушения ср�  │         5 │
└────┴─────────────────────────────┴───────────┘

В Dictionary то же самое:
SELECT *
FROM default.dim_exec_state

┌─id─┬─name────────────────────────┬─parent_id─┐
│  1 │ На исполнении               │         0 │
│  2 │ На исполнении с нарушением  │         1 │
│  3 │ На исполнении с переносом с │         1 │
│  4 │ На исполнении без нарушени�  │         1 │
│  5 │ Исполнено                   │         0 │
│  6 │ Исполнено с нарушением сро�  │         5 │
│  7 │ Исполнено с переносом срок�  │         5 │
│  8 │ Исполнено без нарушения ср�  │         5 │
└────┴─────────────────────────────┴───────────┘

Объявление таблицы в Postgres:
CREATE TABLE public.dim_exec_state (
   id smallint NOT NULL,
   name character varying(50) NOT NULL,
   parent_id smallint
);

Такое ощущение, что 50 байт и режет
Куда копать?
Начать с объявления таблиц в postgres, как объявлено поле name
источник

D

Dmitry Koreckiy in ClickHouse не тормозит
Всем привет!

Есть такая таблица ~ (148kk+ rows)

CREATE TABLE test_table (
 `_id` String,
 `title` String,
 `p1` Int64,
 INDEX title_ngram_index title TYPE ngrambf_v1(3, 10240, 1, 0) GRANULARITY 1
) ENGINE = ReplacingMergeTree() PARTITION BY substring(_id, 1, 1)
ORDER BY
 (_id) SETTINGS index_granularity = 8192


Делаю из нее выборку

WITH
   2 AS distance,
   ['Bost'] AS pattern,
   multiSearchFirstPositionCaseInsensitive(title, pattern) AS mSearchPosCaseInsensitive,
   ngramSearchCaseInsensitive(title, pattern[1]) AS ngSearchCaseInsensitive
SELECT
   title,
   mSearchPosCaseInsensitive,
   ngSearchCaseInsensitive
FROM test_table
WHERE multiFuzzyMatchAny(title, distance, pattern)
limit 25

запрос читает 700к строк

но как только появляется order by, то сразу количество строк становится равным размеру таблицы
в какую сторону копать?
источник

SC

Smoked Cheese in ClickHouse не тормозит
Dmitry Koreckiy
Всем привет!

Есть такая таблица ~ (148kk+ rows)

CREATE TABLE test_table (
 `_id` String,
 `title` String,
 `p1` Int64,
 INDEX title_ngram_index title TYPE ngrambf_v1(3, 10240, 1, 0) GRANULARITY 1
) ENGINE = ReplacingMergeTree() PARTITION BY substring(_id, 1, 1)
ORDER BY
 (_id) SETTINGS index_granularity = 8192


Делаю из нее выборку

WITH
   2 AS distance,
   ['Bost'] AS pattern,
   multiSearchFirstPositionCaseInsensitive(title, pattern) AS mSearchPosCaseInsensitive,
   ngramSearchCaseInsensitive(title, pattern[1]) AS ngSearchCaseInsensitive
SELECT
   title,
   mSearchPosCaseInsensitive,
   ngSearchCaseInsensitive
FROM test_table
WHERE multiFuzzyMatchAny(title, distance, pattern)
limit 25

запрос читает 700к строк

но как только появляется order by, то сразу количество строк становится равным размеру таблицы
в какую сторону копать?
как ты отсортируешь без полного чтения таблицы?
источник