Телеграмм чат группы clickhouse

2020 May 26

AB

Artem Benois in ClickHouse не тормозит

то есть стоит под эти данные держать отдельно mysql?

источник

16:56пожаловаться #1

pk

papa karlo in ClickHouse не тормозит

угу.

источник

16:56пожаловаться #2

KG

Konstantin Grigorev in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

до лимита далеко. В общем надо читать трейсы в логе кх, но проблема вообще никак не связана с ORDER BY таблицы

$ tail /var/log/clickhouse-server/clickhouse-server.log
2020.05.26 16:52:36.687968 [ 15 ] {} <Debug> projectname.impressions (MergerMutator): Merging 2 parts: from 202005_3224258_3230563_5243 to 202005_3230564_3230564_0 into tmp_merge_202005_3224258_3230564_5244
2020.05.26 16:52:36.688803 [ 15 ] {} <Debug> projectname.impressions (MergerMutator): Selected MergeAlgorithm: Horizontal
2020.05.26 16:52:36.688852 [ 15 ] {} <Trace> MergeTreeSequentialBlockInputStream: Reading 13 marks from part 202005_3224258_3230563_5243, total 94697 rows starting from the beginning of the part, columns: timestamp, id, impression_name, network_id, offer_id, ad_id, promo_id, merchant, affiliate, utm_source, utm_medium, utm_campaign, utm_term, utm_content, subid1, subid2, subid3, subid4, subid5, subid6, country, traffic_source, af_utm_source, af_utm_medium, af_utm_campaign, af_utm_term, af_utm_content, af_subid1, af_subid2, af_subid3, af_subid4, af_subid5, af_subid6
2020.05.26 16:52:36.689626 [ 15 ] {} <Trace> MergeTreeSequentialBlockInputStream: Reading 2 marks from part 202005_3230564_3230564_0, total 92 rows starting from the beginning of the part, columns: timestamp, id, impression_name, network_id, offer_id, ad_id, promo_id, merchant, affiliate, utm_source, utm_medium, utm_campaign, utm_term, utm_content, subid1, subid2, subid3, subid4, subid5, subid6, country, traffic_source, af_utm_source, af_utm_medium, af_utm_campaign, af_utm_term, af_utm_content, af_subid1, af_subid2, af_subid3, af_subid4, af_subid5, af_subid6
2020.05.26 16:52:36.704694 [ 8 ] {} <Debug> projectname.impression_views (MergerMutator): Merge sorted 42940 rows, containing 34 columns (34 merged, 0 gathered) in 0.03 sec., 1323663.17 rows/sec., 412.98 MB/sec.
2020.05.26 16:52:36.707770 [ 8 ] {} <Trace> projectname.impression_views: Renaming temporary part tmp_merge_202005_3880395_3880986_305 to 202005_3880395_3880986_305.
2020.05.26 16:52:36.707997 [ 8 ] {} <Trace> projectname.impression_views (MergerMutator): Merged 2 parts: from 202005_3880395_3880985_304 to 202005_3880986_3880986_0
2020.05.26 16:52:36.731593 [ 15 ] {} <Debug> projectname.impressions (MergerMutator): Merge sorted 94789 rows, containing 33 columns (33 merged, 0 gathered) in 0.04 sec., 2173338.84 rows/sec., 643.28 MB/sec.
2020.05.26 16:52:36.734150 [ 15 ] {} <Trace> projectname.impressions: Renaming temporary part tmp_merge_202005_3224258_3230564_5244 to 202005_3224258_3230564_5244.
2020.05.26 16:52:36.734377 [ 15 ] {} <Trace> projectname.impressions (MergerMutator): Merged 2 parts: from 202005_3224258_3230563_5243 to 202005_3230564_3230564_0

источник

16:57пожаловаться #3

DC

Denny Crane (I don't... in ClickHouse не тормозит

Konstantin Grigorev

$ tail /var/log/clickhouse-server/clickhouse-server.log
2020.05.26 16:52:36.687968 [ 15 ] {} <Debug> projectname.impressions (MergerMutator): Merging 2 parts: from 202005_3224258_3230563_5243 to 202005_3230564_3230564_0 into tmp_merge_202005_3224258_3230564_5244
2020.05.26 16:52:36.688803 [ 15 ] {} <Debug> projectname.impressions (MergerMutator): Selected MergeAlgorithm: Horizontal
2020.05.26 16:52:36.688852 [ 15 ] {} <Trace> MergeTreeSequentialBlockInputStream: Reading 13 marks from part 202005_3224258_3230563_5243, total 94697 rows starting from the beginning of the part, columns: timestamp, id, impression_name, network_id, offer_id, ad_id, promo_id, merchant, affiliate, utm_source, utm_medium, utm_campaign, utm_term, utm_content, subid1, subid2, subid3, subid4, subid5, subid6, country, traffic_source, af_utm_source, af_utm_medium, af_utm_campaign, af_utm_term, af_utm_content, af_subid1, af_subid2, af_subid3, af_subid4, af_subid5, af_subid6
2020.05.26 16:52:36.689626 [ 15 ] {} <Trace> MergeTreeSequentialBlockInputStream: Reading 2 marks from part 202005_3230564_3230564_0, total 92 rows starting from the beginning of the part, columns: timestamp, id, impression_name, network_id, offer_id, ad_id, promo_id, merchant, affiliate, utm_source, utm_medium, utm_campaign, utm_term, utm_content, subid1, subid2, subid3, subid4, subid5, subid6, country, traffic_source, af_utm_source, af_utm_medium, af_utm_campaign, af_utm_term, af_utm_content, af_subid1, af_subid2, af_subid3, af_subid4, af_subid5, af_subid6
2020.05.26 16:52:36.704694 [ 8 ] {} <Debug> projectname.impression_views (MergerMutator): Merge sorted 42940 rows, containing 34 columns (34 merged, 0 gathered) in 0.03 sec., 1323663.17 rows/sec., 412.98 MB/sec.
2020.05.26 16:52:36.707770 [ 8 ] {} <Trace> projectname.impression_views: Renaming temporary part tmp_merge_202005_3880395_3880986_305 to 202005_3880395_3880986_305.
2020.05.26 16:52:36.707997 [ 8 ] {} <Trace> projectname.impression_views (MergerMutator): Merged 2 parts: from 202005_3880395_3880985_304 to 202005_3880986_3880986_0
2020.05.26 16:52:36.731593 [ 15 ] {} <Debug> projectname.impressions (MergerMutator): Merge sorted 94789 rows, containing 33 columns (33 merged, 0 gathered) in 0.04 sec., 2173338.84 rows/sec., 643.28 MB/sec.
2020.05.26 16:52:36.734150 [ 15 ] {} <Trace> projectname.impressions: Renaming temporary part tmp_merge_202005_3224258_3230564_5244 to 202005_3224258_3230564_5244.
2020.05.26 16:52:36.734377 [ 15 ] {} <Trace> projectname.impressions (MergerMutator): Merged 2 parts: from 202005_3224258_3230563_5243 to 202005_3230564_3230564_0

и что? тут никакой проблемы нет, надо несколько десятков мегабайт лога вокруг ошибки

источник

16:59пожаловаться #4

AP

Abi Palagashvili in ClickHouse не тормозит

А в кх имеется поддержка HA режима при работе с hdfs?Если да, то где можно пример рабочий найти?

источник

17:19пожаловаться #5

MK

Mike Kiselev in ClickHouse не тормозит

Насколько оправданно использовать кх в ситуациях , когда туда нужно совершать миллионы запросов в день (селект в одну табл)? Столкнулся с проблемой, что LA вырос до 20-25 на второй день тестов. Первый день ничего не происходило. Выполняя идентичные запросы вручную , отвечают они моментально

источник

17:34пожаловаться #6

l

lnuynxa in ClickHouse не тормозит

Mike Kiselev

Насколько оправданно использовать кх в ситуациях , когда туда нужно совершать миллионы запросов в день (селект в одну табл)? Столкнулся с проблемой, что LA вырос до 20-25 на второй день тестов. Первый день ничего не происходило. Выполняя идентичные запросы вручную , отвечают они моментально

кликхаус не очень подходит для высокого кол-ва rps, тк любой запрос это сканирование некоторого диапазона

источник

17:35пожаловаться #7

MK

Mike Kiselev in ClickHouse не тормозит

Выходит всю информацию агрегированную необходимо выносить в mysql( проект на нем )? Ее достаточно много :(

источник

17:38пожаловаться #8

E

Eugene in ClickHouse не тормозит

Mike Kiselev

Насколько оправданно использовать кх в ситуациях , когда туда нужно совершать миллионы запросов в день (селект в одну табл)? Столкнулся с проблемой, что LA вырос до 20-25 на второй день тестов. Первый день ничего не происходило. Выполняя идентичные запросы вручную , отвечают они моментально

А возвращаются всегда разные данные, или как-то перекрываются?
Я бы партиционировал их по каком-нибудь критерию, типа времени и запрашивал только аддитивно, кусочками

источник

17:39пожаловаться #9

MK

Mike Kiselev in ClickHouse не тормозит

Данные меняются. Там логируется инфа пользовательская, по которой я рассчитываю их процент отклика на рассылки. А так же сколько писем было отправлено за период какой либо

источник

17:41пожаловаться #10

DC

Denny Crane (I don't... in ClickHouse не тормозит

Mike Kiselev

Выходит всю информацию агрегированную необходимо выносить в mysql( проект на нем )? Ее достаточно много :(

вряд ли это нужно, скорее или запрашивать сразу пачкой если они слишком мелкие, либо что-то неправильно работает и надо подкрутить например block_size или granularity

источник

17:44пожаловаться #11

MK

Mike Kiselev in ClickHouse не тормозит

lnuynxa

кликхаус не очень подходит для высокого кол-ва rps, тк любой запрос это сканирование некоторого диапазона

А где можно почитать про то, под какие нагрузки он подходит? В доках я читал , что для онлайн запросов он годится , но про рпс не нашёл

источник

17:45пожаловаться #12

l

lnuynxa in ClickHouse не тормозит

Mike Kiselev

А где можно почитать про то, под какие нагрузки он подходит? В доках я читал , что для онлайн запросов он годится , но про рпс не нашёл

https://www.altinity.com/blog/clickhouse-in-the-storm-part-1

Altinity

ClickHouse In the Storm. Part 1: Maximum QPS estimation — Altinity

May 2, 2019 ClickHouse is an OLAP database for analytics, so the typical use scenario is processing a relatively small number of requests -- from several per hour to many dozens or even low hundreds per second --affecting huge ranges of data (gigabytes/millions of rows). But how it will behave i

источник

17:45пожаловаться #13

MK

Mike Kiselev in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

вряд ли это нужно, скорее или запрашивать сразу пачкой если они слишком мелкие, либо что-то неправильно работает и надо подкрутить например block_size или granularity

Пачкой это не совсем подходит кажется, потому что в момент времени расчёт идёт для одного определенного юзера

источник

17:47пожаловаться #14

DC

Denny Crane (I don't... in ClickHouse не тормозит

Mike Kiselev

Пачкой это не совсем подходит кажется, потому что в момент времени расчёт идёт для одного определенного юзера

и что? ну считайте сразу для сотни юзеров

источник

17:48пожаловаться #15

G

GithubReleases in ClickHouse не тормозит

ClickHouse/ClickHouse tagged: v20.4.4.18-stable
Link: https://github.com/ClickHouse/ClickHouse/releases/tag/v20.4.4.18-stable
Release notes:

v20.4.4.18-stable

GitHub

ClickHouse/ClickHouse

ClickHouse is a free analytics DBMS for big data. Contribute to ClickHouse/ClickHouse development by creating an account on GitHub.

источник

17:50пожаловаться #16

MK

Mike Kiselev in ClickHouse не тормозит

Denny Crane (I don't work at Yandex (never did))

и что? ну считайте сразу для сотни юзеров

для сотни юзеров посчитать можно, если эта сотня известна 🙂 но у меня она не известна, либо это накапливать и заставлять очереди ждать

источник

17:52пожаловаться #17

DT

Dmitry Titov in ClickHouse не тормозит

миллион запросов если ровненько разделить на 12 часов, то будет примерно 23 запроса в секунду

источник

17:59пожаловаться #18

DT

Dmitry Titov in ClickHouse не тормозит

в общем я бы для начала посчитал, сколько выполняется 1 средний запрос по времени

источник

18:00пожаловаться #19

MK

Mike Kiselev in ClickHouse не тормозит

запросы по факту отправки делаются, т.е. есть например есть пара рассылок по крону, генерится пачка юзеров большая, например 100К разом кидает их в раббит , в воркерах уже делается запрос в кх. Не только в кх, но и в том числе. Там еще логика есть всякая. Воркеры так устроены, что задание обрабатывает одного конкретного юзера

источник

18:05пожаловаться #20