Size: a a a

ClickHouse не тормозит

2020 August 18

МЕ

Михаил Егоров... in ClickHouse не тормозит
А если просчитывать, но записывать не все, а только те сегменты в которых есть отклонения на заданный %
источник

DT

Dmitry Titov in ClickHouse не тормозит
Михаил Егоров
Данных самих не так много, условно 4 млн товаров, но у каждого есть характеристики, эти характеристики образуют в пересечении такое количество вариантов. Каждый товар может быть в нескольких сегментах. Я хочу понимать как меняется спрос на те или иные товары в разных разрезах
4 млн товаров, допустим мы каждый товар раскладываем в пару параметров и каунтер.
Худший случай в таком случае будет:
100^2 = 10000 число всех возможных комбинаций на каждый товар.
40млдр записей в такой таблице, но на самом деле там будет большое число повторений так что реальное число строк будет меньше

Но это если по парам
источник

МЕ

Михаил Егоров... in ClickHouse не тормозит
Dmitry Titov
4 млн товаров, допустим мы каждый товар раскладываем в пару параметров и каунтер.
Худший случай в таком случае будет:
100^2 = 10000 число всех возможных комбинаций на каждый товар.
40млдр записей в такой таблице, но на самом деле там будет большое число повторений так что реальное число строк будет меньше

Но это если по парам
А вот если параметров много, только шага цен может быть условно 50 вариантов
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
зачем тут вообще КХ?
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
в памяти можно ноутбука можно сделать
источник

МЕ

Михаил Егоров... in ClickHouse не тормозит
Denny Crane (I don't work at Yandex (never did))
зачем тут вообще КХ?
Сама база в КХ хранится
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
нафига
источник

DT

Dmitry Titov in ClickHouse не тормозит
Михаил Егоров
А вот если параметров много, только шага цен может быть условно 50 вариантов
https://research.fb.com/blog/2014/09/fast-randomized-svd/

Вообще я бы посмотрел на бумаги по рекомендательным системам, возможно это ближе к вашей задаче
источник

МЕ

Михаил Егоров... in ClickHouse не тормозит
Так исторически сложилось) перевели все в облако яндекса и просто все делаем в КХ.
источник

МЕ

Михаил Егоров... in ClickHouse не тормозит
Dmitry Titov
https://research.fb.com/blog/2014/09/fast-randomized-svd/

Вообще я бы посмотрел на бумаги по рекомендательным системам, возможно это ближе к вашей задаче
Типа рекомендательной системы и есть идея сделать,  но как просчитать все возможные варианты, вот тут столкнулись с трудностями, точнее куда вообще записать все возможные варианты того, что нужно просчитать
источник

МЕ

Михаил Егоров... in ClickHouse не тормозит
Не знаю возможно ли это просчитывать условно в памяти просто, а не создавать сегменты с записью результатов
источник

DT

Dmitry Titov in ClickHouse не тормозит
Михаил Егоров
Типа рекомендательной системы и есть идея сделать,  но как просчитать все возможные варианты, вот тут столкнулись с трудностями, точнее куда вообще записать все возможные варианты того, что нужно просчитать
Ну я думаю, тот факт что даже гиганты не считают все в лоб, это повод задуматься о том, как нужно решать подобные задачи:) вообще в кликхаусе есть фунции машинного обучения, но по ним не так много информации.
источник

МЕ

Михаил Егоров... in ClickHouse не тормозит
Dmitry Titov
Ну я думаю, тот факт что даже гиганты не считают все в лоб, это повод задуматься о том, как нужно решать подобные задачи:) вообще в кликхаусе есть фунции машинного обучения, но по ним не так много информации.
Вот и интересно,  а как же гиганты решают эту задачу, явно ведь у меня не самая трудная задача на просчёт и есть значительно большее количество вариантов которые нужно просчитать компаниям
источник

DT

Dmitry Titov in ClickHouse не тормозит
Михаил Егоров
Вот и интересно,  а как же гиганты решают эту задачу, явно ведь у меня не самая трудная задача на просчёт и есть значительно большее количество вариантов которые нужно просчитать компаниям
Гуглится по SVD, но это обычно какие то in-memory вычисления.
источник

АА

Алексей Артамонов... in ClickHouse не тормозит
всем привет
источник

АА

Алексей Артамонов... in ClickHouse не тормозит
подскажите плиз
источник

АА

Алексей Артамонов... in ClickHouse не тормозит
делаю INSERT INTO default.blogger_likers_new  SELECT * FROM default.blogger_likers;
источник

АА

Алексей Артамонов... in ClickHouse не тормозит
в итоге в табличку blogger_likers_new не довставляются ~ 3 млн записей
источник

АА

Алексей Артамонов... in ClickHouse не тормозит
куда копать
источник

АА

Алексей Артамонов... in ClickHouse не тормозит
возможно всему виной
DNS error: EAI: -9 (version 19.16.12.49 (official build). If it is an IPv6 or IPv4 address and your host has disabled IPv6 or IPv4, then consider to specify not disabled IPv4 or IPv6 address to listen in <listen_host> element of configuration file. Example for disabled IPv6: <listen_host>0.0.0.0</listen_host> . Example for disabled IPv4: <listen_host>::</listen_host>
источник