Size: a a a

2021 February 20

ИК

Иван Калининский... in Moscow Spark
Паша Финкельштейн
Интересно, а есть сейчас формат хранения, умеющий дельта-кодирование из коробки или надо руками?
файловый?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ага. Ну типа орк вот
источник

NN

No Name in Moscow Spark
Паша Финкельштейн
Интересно, а есть сейчас формат хранения, умеющий дельта-кодирование из коробки или надо руками?
Что это?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Просто дельта-кодированная колонка для таймсерия сжатая вообще места занимать не будет
источник

ИК

Иван Калининский... in Moscow Spark
хорошо бы существующие форматы на это заточить, чтобы не мигрировать
источник

ПФ

Паша Финкельштейн... in Moscow Spark
No Name
Что это?
Сейчас нарисую
источник

ИК

Иван Калининский... in Moscow Spark
и в паркете и в орке есть хранение с дельта-кодированием, помню, читал, и гуглится в первых строках
источник

ИК

Иван Калининский... in Moscow Spark
но вот добавление инкремента -
источник

ИК

Иван Калининский... in Moscow Spark
этого нет, и, походу, не ожидается (обновляемый orc пока не ковырял)
источник

ИК

Иван Калининский... in Moscow Spark
ORC uses type specific readers and writers that provide light weight compression techniques such as dictionary encoding, bit packing, delta encoding, and run length encoding
источник

ИК

Иван Калининский... in Moscow Spark
и если это бизнес-данные в таблице, то все колонки отсортированными не положить, как ни старайся, или очень много придётся делать вручную по каждому кейсу
источник

ПФ

Паша Финкельштейн... in Moscow Spark
#infinitepainter
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Пунктиром - некая воображаемая точка старта, которую мы вычитаем из первого значения колонки
источник

ПФ

Паша Финкельштейн... in Moscow Spark
И в монотонно возрастающих данных всё дельта кодирование - это сказать сколько раз у нас повторяется единица инкремента
источник

ПФ

Паша Финкельштейн... in Moscow Spark
@ExcellentName примерно понятно?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
@KaiNie_R я правильно понимаю же?
источник

ИК

Иван Калининский... in Moscow Spark
Паша Финкельштейн
И в монотонно возрастающих данных всё дельта кодирование - это сказать сколько раз у нас повторяется единица инкремента
это очень похоже на run length encoding
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Иван Калининский
это очень похоже на run length encoding
Первая мутация - дельта, вторая - run length мне казалось
источник

NN

No Name in Moscow Spark
Паша Финкельштейн
@ExcellentName примерно понятно?
Ага, пасиб
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Дельта может очень экономить место за счёт того, что может быть другой тип данных - например short вместо long
источник