Я посмотрел это выступление (кстати хорошее, есть важные моменты, не упомянутые в доках) и всё-таки не понимаю механизма, при котором хорошо прожеванные данные будут занимать больше места. Я бы наоборот ожидал что для каких-то кодеков отсортированные данные будут сжиматься лучше.
я говорю про мержи.
Вы кладете в hdfs 100 паркет файликов по 100 МБ, они там лежат один раз записанные и есть не просят.
Вы кладете в КХ 100 паркет инсертов по 100MБ получаем сто партов _0, КХ мержит - берет первые 5, читает, распаковывает, соединяет, запаковывает, записывает парт_level_1 500МБ, берет следующие 5, потом берет и начинает мержить _1 из 500МБ в большие парт_level_2 по 1.5ГБ, и так до утра, весь диск с i/o 100% и CPU на 400%
У меня есть дата-лейки и на HDFS и на КХ, которые записываются один раз и читаются тоже в основном фулсканом 1 раз, я понимаю где смешно