Size: a a a

ClickHouse не тормозит

2020 July 16

Д

Дмитрий in ClickHouse не тормозит
Dj
да, если памяти много можете ещё больше вставлять.
если инсерт селект - выставите паралелизм на инсерт (параметр есть)

обычно затык не на стороне КХ, а на стороне вставлятеля... вставляйте в нативном формате или паркете (если есть).
из json сильно медленнее
а что за параметр с памятью?
источник

SC

Smoked Cheese in ClickHouse не тормозит
CSV, TSV тоже норм
источник

D

Dj in ClickHouse не тормозит
Дмитрий
а что за параметр с памятью?
параметра на саму память нет, просто если вставки жирнее, клиенту нужно больше памяти как бы по умолчанию, и серверу, чтоб сортировать вставленные данные перед записью на диск
источник

D

Dj in ClickHouse не тормозит
Дмитрий
а что за параметр с памятью?
max_insert_block_size
min_insert_block_size_rows
min_insert_block_size_bytes
max_insert_threads
—-
источник

Д

Дмитрий in ClickHouse не тормозит
Dj
max_insert_block_size
min_insert_block_size_rows
min_insert_block_size_bytes
max_insert_threads
—-
спасибо
источник

D

Dj in ClickHouse не тормозит
Дмитрий
спасибо
ещё если вставляете в replicatedMT, но zookeeper далеко от КХ сервера (latency >10ms) - будут тормоза тоже...
источник

N

Nik in ClickHouse не тормозит
ребят - типичная задача по подтягиванию из csv  в таблицу кликхаус
столь же типичный нюанс с форматами данных внутри csv - цифры,ссылки и буквы (иногда их смешание)
как решали? есть у кого простой драйвер или библиотека которая сама проглатывает csv (или с api) и ставит схему создавая таблицу в кликхаусе без косяков с форматом (может быть с питоном и пандасом по апи из датафрейма кто такие таблицы вытягивал) ?
источник

SC

Sergey Cherkashin in ClickHouse не тормозит
Господа, подскажите, пожалуйста, возможен ли такой сценарий, что КХ домердживает данные в партицию, и больше эту партицию никогда не мерджит? Вопрос связан с тем, что у меня выставлен TTL на таблицу timestamp + toIntervalDay(1), но клик данные не удаляет даже спустя 3 дня. Приходится освобождать место вручную. Может ли на это влиять неверно заданный ключ партицирования?
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
Sergey Cherkashin
Господа, подскажите, пожалуйста, возможен ли такой сценарий, что КХ домердживает данные в партицию, и больше эту партицию никогда не мерджит? Вопрос связан с тем, что у меня выставлен TTL на таблицу timestamp + toIntervalDay(1), но клик данные не удаляет даже спустя 3 дня. Приходится освобождать место вручную. Может ли на это влиять неверно заданный ключ партицирования?
Версия КХ ?

TTL мержи не свзязаны с шедулером обычных мержей.
Для TTL мержей есть параметр merge_with_ttl_timeout  Minimum delay in seconds before repeating a merge with TTL. Default value: 86400 (1 day).
Т.е. раз в сутки запускается шедулер и проверяет что нужно удалить, но удаляет только из одного парта в таблице, это баг
источник

МШ

Михаил Ш in ClickHouse не тормозит
Подскажите, а есть ли способ изменить таблицу-источник для движка Distibuted не пересоздавая саму Distributed таблицу?
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
Михаил Ш
Подскажите, а есть ли способ изменить таблицу-источник для движка Distibuted не пересоздавая саму Distributed таблицу?
нельзя.
источник

МШ

Михаил Ш in ClickHouse не тормозит
ок, понял, спасибо
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
Михаил Ш
ок, понял, спасибо
а хотя можно сделать detach поправить sql, потом attach
источник

МШ

Михаил Ш in ClickHouse не тормозит
ну так то вроде проще получается drop & create, идея была в том, чтобы не останавливать возможность выполнения запросов
источник

PL

Piotr Liakhavets in ClickHouse не тормозит
Михаил Ш
ну так то вроде проще получается drop & create, идея была в том, чтобы не останавливать возможность выполнения запросов
создать рядом, а потом ренейм страрой и новой одной командой - вроде минимум импакта тогда
источник

МШ

Михаил Ш in ClickHouse не тормозит
о, да, отличный вариант
источник

МШ

Михаил Ш in ClickHouse не тормозит
спасибо
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
Михаил Ш
ну так то вроде проще получается drop & create, идея была в том, чтобы не останавливать возможность выполнения запросов
ну я убираю из балансера/днс половину нод КХ, пересоздаю на них таблицу, запросы идут через другую половину нод
источник

SC

Sergey Cherkashin in ClickHouse не тормозит
Denny Crane (I don't work at Yandex (never did))
Версия КХ ?

TTL мержи не свзязаны с шедулером обычных мержей.
Для TTL мержей есть параметр merge_with_ttl_timeout  Minimum delay in seconds before repeating a merge with TTL. Default value: 86400 (1 day).
Т.е. раз в сутки запускается шедулер и проверяет что нужно удалить, но удаляет только из одного парта в таблице, это баг
Версия 20.4.5.36.
То есть для удаления по TTL КХ в любом случае пойдёт по всем партициям?
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
Sergey Cherkashin
Версия 20.4.5.36.
То есть для удаления по TTL КХ в любом случае пойдёт по всем партициям?
в партах хранятся отдельные файлик с метаданными для TTL, там лежит мин и макс дата expire, раз в сутки КХ проверяет метаданные и если диапазон совпадает с текущей датой, то начинает перезаписывать парт без expire записей, почему-то сейчас делается только один парт за раз, поставьте merge_with_ttl_timeout поменьше
источник