Телеграмм чат группы clickhouse_ru страница 7953

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ClickHouse не тормозит

4137 membersпожаловаться на группу

2020 August 04

D

Denis in ClickHouse не тормозит

в первый парсинг файла я загружу 150 млн доменов в базу (хочется чтоб загрузка проходила не более 12 часов), каждый день обновляется примерно 150 тысяч доменов - хочется тоже, чтоб это было не более 12 часов

сейчас pgsql не вывозит такое

источник

21:06пожаловаться #1

pk

papa karlo in ClickHouse не тормозит

150к апдейтов вроде быстро должны работать.

источник

21:06пожаловаться #2

pk

papa karlo in ClickHouse не тормозит

у вас ссд?

источник

21:07пожаловаться #3

D

Denis in ClickHouse не тормозит

да, тестировал на hetzner cloud (VPS): 3 CPU, 4GB RAM, nvme

источник

21:08пожаловаться #4

D

Denis in ClickHouse не тормозит

там вся боль сейчас в том, что вначале я партицию (по букву) выгружаю в redis, чтоб каждый запрос в pgsql не закидывать - и долго именно из pg перекладывается, т.к. я пачками выбираю (делаю where id > last_id limit 1000)

источник

21:09пожаловаться #5

pk

papa karlo in ClickHouse не тормозит

домен это сколько, 32 байта? у вас по идее база <10Гб

источник

21:09пожаловаться #6

D

Denis in ClickHouse не тормозит

сырая выгрузка 20ГБ, в PgSQL папка с данными была что-то вроде 60ГБ

источник

21:09пожаловаться #7

D

Denis in ClickHouse не тормозит

макисмальная длина домена вроде бы 50 символов была из того что я помню, но это не точно, там 255 стоит у меня в структуре таблицы почему-то

источник

21:10пожаловаться #8

D

Dj in ClickHouse не тормозит

в первый парсинг файла я загружу 150 млн доменов в базу (хочется чтоб загрузка проходила не более 12 часов), каждый день обновляется примерно 150 тысяч доменов - хочется тоже, чтоб это было не более 12 часов

сейчас pgsql не вывозит такое

150mln ни о чем, пг норм
Вам кх не особо нужен.

Но можете в кх хранить весь лог без удалений обновлений строк тоже

источник

21:11пожаловаться #9

D

Denis in ClickHouse не тормозит

да уже хочется КХ потестить, раз с пг у меня не получается, а я уже устал финты пробовать разные ) тем более для себя, не страшно если ошибусь

источник

21:12пожаловаться #10

pk

papa karlo in ClickHouse не тормозит

можно сделать табличку с логом всего, можно сделать mv, который отдедуплицирует события по одному домену, но при чтении вроде все равно надо будет домерживать. tld точно можно инлайнить, ns для начала тоже, какая там средняя длина массива?

источник

21:14пожаловаться #11

D

Denis in ClickHouse не тормозит

в среднем 2-4 неймсервера

источник

21:16пожаловаться #12

D

Denis in ClickHouse не тормозит

источник

21:17пожаловаться #13

pk

papa karlo in ClickHouse не тормозит

еще можно самому всегда агрегировать по domain исходные данные, но 150М ключей - это обычно проблемы с памятью, надо смотреть какая предполагается аналитика и какая исходная событийная модель. что такое домен пропал из регистрации итд. Какие домены были удалены/обновлены вчера с доменной зоной = ru можно и по оригинальным событиям вообще без всякого updated_at посчитать.

источник

21:18пожаловаться #14

D

Denis in ClickHouse не тормозит

я думал вначале в память засунуть всё, но у меня нет таких серверов..))

источник

21:19пожаловаться #15

D

Denis in ClickHouse не тормозит

а вот как у КХ с запросами, когда нужно получить 1 строку из всей таблицы по её ключу? на апдейтах у меня такая логика и подразумевается, что во время последующих парсингов я делаю на каждый домен запрос в базу и проверяю NSы в коде.
Не упрусь в то, что КХ будет вывозить условно 100 запросов в секунду всего таких?

источник

21:22пожаловаться #16

pk

papa karlo in ClickHouse не тормозит

не надо делать апдейты и не надо читать по одной записи. упретесь.

источник

21:23пожаловаться #17

D

Denis in ClickHouse не тормозит

а как тогда быть? я не могу пачкой взять 100 доменов из базы и пачку в 100 доменов спарсить из файла, там если будут пропуски, то я замучаюсь понимать как это разрулить, особенно когда следующую пачку надо будет взять

источник

21:24пожаловаться #18

D

Denis in ClickHouse не тормозит

выгружать примерно по 5 млн доменов в память (по первой букве) - не выйдет опять же из-за того что не влезут(

источник

21:25пожаловаться #19

pk

papa karlo in ClickHouse не тормозит

исходные данные это что, снапшоты раз в какое-то время?

источник

21:25пожаловаться #20