Телеграмм чат группы clickhouse

2020 June 23

DV

Dmitry Vasiliev in ClickHouse не тормозит

в этой схеме приложение должно через

/latest/meta-data/iam/security-credentials/

получить временные крединталы, это автоматом работает с либами что AWS API предлагает

источник

14:19пожаловаться #1

AR

Alexander Ryzhenko in ClickHouse не тормозит

Можно ли как-то почистить метадату после удаления файлов таблиц с диска в ручную?
а то теперь не дает создать базы/таблицы с такимим именами, какие были у удаленных

источник

14:20пожаловаться #2

AT

Al T in ClickHouse не тормозит

скорее всего IAM roles не работают..

источник

14:20пожаловаться #3

AT

Al T in ClickHouse не тормозит

по моему там надо руками api keys указывать что печалька

источник

14:20пожаловаться #4

DT

Dmitry Titov in ClickHouse не тормозит

Alexander Ryzhenko

Можно ли как-то почистить метадату после удаления файлов таблиц с диска в ручную?
а то теперь не дает создать базы/таблицы с такимим именами, какие были у удаленных

можно clickhouse/metadata

источник

14:20пожаловаться #5

AR

Alexander Ryzhenko in ClickHouse не тормозит

Dmitry Titov

можно clickhouse/metadata

так просто :)
Спасибо

источник

14:21пожаловаться #6

AT

Al T in ClickHouse не тормозит

Dmitry Vasiliev

в этой схеме приложение должно через

/latest/meta-data/iam/security-credentials/

получить временные крединталы, это автоматом работает с либами что AWS API предлагает

http://host/bucket/*
http://host/bucket/*.csv

select * from s3('http://host/bucket/*', 'access_key_id', 'secret_access_key', 'CSV', 'column1 UInt32, column2 UInt32, column3 UInt32')

источник

14:22пожаловаться #7

AT

Al T in ClickHouse не тормозит

вот так попробуйте (если че это Денис виноват)

источник

14:22пожаловаться #8

DV

Dmitry Vasiliev in ClickHouse не тормозит

Al T

http://host/bucket/*
http://host/bucket/*.csv

select * from s3('http://host/bucket/*', 'access_key_id', 'secret_access_key', 'CSV', 'column1 UInt32, column2 UInt32, column3 UInt32')

ок 🙁
а где доку по s3 найти? 🙂

источник

14:22пожаловаться #9

AT

Al T in ClickHouse не тормозит

да сами колемся и плачем... доку нельзя найти доку можно написать ))

источник

14:23пожаловаться #10

DT

Dmitry Titov in ClickHouse не тормозит

Dmitry Vasiliev

ок 🙁
а где доку по s3 найти? 🙂

исходный код доступен на гитхабе)

источник

14:24пожаловаться #11

DV

Dmitry Vasiliev in ClickHouse не тормозит

Al T

да сами колемся и плачем... доку нельзя найти доку можно написать ))

ок, я примеры в тестах смотрю 😄

источник

14:24пожаловаться #12

AT

Al T in ClickHouse не тормозит

есть много чукчей-читателей, а нужен чукча-писатель...

источник

14:24пожаловаться #13

AT

Al T in ClickHouse не тормозит

простите меня дорогие чукчи за возможно некорректное высказывание

источник

14:24пожаловаться #14

DR

Dmitry Rodionov in ClickHouse не тормозит

Fuzzi Wuzzi

Добрый день. У меня есть таблица с вложенной структурой (Nested). Движок kafka, формат сообщений protobuf. Появляется ошибка о том, что у двух массивов разные длины из-за чего нельзя вставить их в таблицу. Можно ли просмотреть полностью запрос которым он пытается вставить эти данные в таблицу? Т.к. данные которые уходят в кафку корректные и я не пойму, где ошибка.

https://github.com/ClickHouse/ClickHouse/issues/6936

GitHub

Using optional fields in protobuf nested messages · Issue #6936 · ClickHouse/ClickHouse

Hello! First of all thank you for the great product :) I'm using kafka engine with protobuf format and my message contains nested messages with optional values. In kafka table and in target...

источник

14:32пожаловаться #15

AK

Alexey Kostarev in ClickHouse не тормозит

Добрый день коллеги
Обнаружим проблему в обрезанием кириллических строк в Dictionary
CREATE DICTIONARY dim_exec_state
(
id UInt64,
name String,
parent_id UInt64 HIERARCHICAL
)
PRIMARY KEY id
SOURCE(ODBC(DB 'public' TABLE 'dim_exec_state' CONNECTION_STRING 'DSN=postgresConnection'))
LIFETIME(MIN 0 MAX 300)
LAYOUT(FLAT)

При запросе явно обрезает кириллицу
SELECT *
FROM odbc('DSN=postgresConnection;Servername=postgres', 'dim_exec_state')

┌─id─┬─name────────────────────────┬─parent_id─┐
│ 1 │ На исполнении │ ᴺᵁᴸᴸ │
│ 2 │ На исполнении с нарушением │ 1 │
│ 3 │ На исполнении с переносом с │ 1 │
│ 4 │ На исполнении без нарушени� │ 1 │
│ 5 │ Исполнено │ ᴺᵁᴸᴸ │
│ 6 │ Исполнено с нарушением сро� │ 5 │
│ 7 │ Исполнено с переносом срок� │ 5 │
│ 8 │ Исполнено без нарушения ср� │ 5 │
└────┴─────────────────────────────┴───────────┘

В Dictionary то же самое:
SELECT *
FROM default.dim_exec_state

┌─id─┬─name────────────────────────┬─parent_id─┐
│ 1 │ На исполнении │ 0 │
│ 2 │ На исполнении с нарушением │ 1 │
│ 3 │ На исполнении с переносом с │ 1 │
│ 4 │ На исполнении без нарушени� │ 1 │
│ 5 │ Исполнено │ 0 │
│ 6 │ Исполнено с нарушением сро� │ 5 │
│ 7 │ Исполнено с переносом срок� │ 5 │
│ 8 │ Исполнено без нарушения ср� │ 5 │
└────┴─────────────────────────────┴───────────┘

Объявление таблицы в Postgres:
CREATE TABLE public.dim_exec_state (
id smallint NOT NULL,
name character varying(50) NOT NULL,
parent_id smallint
);

Такое ощущение, что 50 байт и режет
Куда копать?

источник

14:38пожаловаться #16

IF

Ilya Flakin in ClickHouse не тормозит

name character varying(50) NOT NULL ?

источник

14:40пожаловаться #17

AS

Alexey Sibirtsev in ClickHouse не тормозит

Alexey Kostarev

Добрый день коллеги
Обнаружим проблему в обрезанием кириллических строк в Dictionary
CREATE DICTIONARY dim_exec_state
(
id UInt64,
name String,
parent_id UInt64 HIERARCHICAL
)
PRIMARY KEY id
SOURCE(ODBC(DB 'public' TABLE 'dim_exec_state' CONNECTION_STRING 'DSN=postgresConnection'))
LIFETIME(MIN 0 MAX 300)
LAYOUT(FLAT)

При запросе явно обрезает кириллицу
SELECT *
FROM odbc('DSN=postgresConnection;Servername=postgres', 'dim_exec_state')

┌─id─┬─name────────────────────────┬─parent_id─┐
│ 1 │ На исполнении │ ᴺᵁᴸᴸ │
│ 2 │ На исполнении с нарушением │ 1 │
│ 3 │ На исполнении с переносом с │ 1 │
│ 4 │ На исполнении без нарушени� │ 1 │
│ 5 │ Исполнено │ ᴺᵁᴸᴸ │
│ 6 │ Исполнено с нарушением сро� │ 5 │
│ 7 │ Исполнено с переносом срок� │ 5 │
│ 8 │ Исполнено без нарушения ср� │ 5 │
└────┴─────────────────────────────┴───────────┘

В Dictionary то же самое:
SELECT *
FROM default.dim_exec_state

┌─id─┬─name────────────────────────┬─parent_id─┐
│ 1 │ На исполнении │ 0 │
│ 2 │ На исполнении с нарушением │ 1 │
│ 3 │ На исполнении с переносом с │ 1 │
│ 4 │ На исполнении без нарушени� │ 1 │
│ 5 │ Исполнено │ 0 │
│ 6 │ Исполнено с нарушением сро� │ 5 │
│ 7 │ Исполнено с переносом срок� │ 5 │
│ 8 │ Исполнено без нарушения ср� │ 5 │
└────┴─────────────────────────────┴───────────┘

Объявление таблицы в Postgres:
CREATE TABLE public.dim_exec_state (
id smallint NOT NULL,
name character varying(50) NOT NULL,
parent_id smallint
);

Такое ощущение, что 50 байт и режет
Куда копать?

Начать с объявления таблиц в postgres, как объявлено поле name

источник

14:41пожаловаться #18

D

Dmitry Koreckiy in ClickHouse не тормозит

Всем привет!

Есть такая таблица ~ (148kk+ rows)

CREATE TABLE test_table (
  `_id` String,
  `title` String,
  `p1` Int64,
  INDEX title_ngram_index title TYPE ngrambf_v1(3, 10240, 1, 0) GRANULARITY 1
) ENGINE = ReplacingMergeTree() PARTITION BY substring(_id, 1, 1)
ORDER BY
  (_id) SETTINGS index_granularity = 8192


Делаю из нее выборку 

WITH
    2 AS distance,
    ['Bost'] AS pattern,
    multiSearchFirstPositionCaseInsensitive(title, pattern) AS mSearchPosCaseInsensitive,
    ngramSearchCaseInsensitive(title, pattern[1]) AS ngSearchCaseInsensitive
SELECT
    title,
    mSearchPosCaseInsensitive,
    ngSearchCaseInsensitive
FROM test_table
WHERE multiFuzzyMatchAny(title, distance, pattern)
limit 25

запрос читает 700к строк

но как только появляется order by, то сразу количество строк становится равным размеру таблицы
в какую сторону копать?

источник

14:44пожаловаться #19

SC

Smoked Cheese in ClickHouse не тормозит

Dmitry Koreckiy

Всем привет!

Есть такая таблица ~ (148kk+ rows)

CREATE TABLE test_table (
  `_id` String,
  `title` String,
  `p1` Int64,
  INDEX title_ngram_index title TYPE ngrambf_v1(3, 10240, 1, 0) GRANULARITY 1
) ENGINE = ReplacingMergeTree() PARTITION BY substring(_id, 1, 1)
ORDER BY
  (_id) SETTINGS index_granularity = 8192


Делаю из нее выборку 

WITH
    2 AS distance,
    ['Bost'] AS pattern,
    multiSearchFirstPositionCaseInsensitive(title, pattern) AS mSearchPosCaseInsensitive,
    ngramSearchCaseInsensitive(title, pattern[1]) AS ngSearchCaseInsensitive
SELECT
    title,
    mSearchPosCaseInsensitive,
    ngSearchCaseInsensitive
FROM test_table
WHERE multiFuzzyMatchAny(title, distance, pattern)
limit 25

запрос читает 700к строк

но как только появляется order by, то сразу количество строк становится равным размеру таблицы
в какую сторону копать?

как ты отсортируешь без полного чтения таблицы?

источник

14:48пожаловаться #20