Evgeny Lazin
Я вижу два недостатка. Они сначала пишут в row-order, потом перезаливают в column-order. Из-за этого, во первых, часть данных всегда лежит на диске раздутой, во вторых, процесс/поток, который эти данные жмет в column-order может не успевать.
Кроме этого, есть еще и другие недостатки:
- Нужно явно прописывать порядок сортировки и партиционирования данных, чтобы достичь максимального сжатия. Если неправильно укажешь эти параметры, то в одной строке окажутся значения для разных рядов, раскиданные в случайном порядке. Для них компрессия - что мертвому припарка.
- Значения для одного ряда остаются разбросаны по диску даже при правильном указании порядка сортировки и партиционирования. Просто раньше они были разбросаны по одному значению, а теперь будут разбросаны по небольшим группам значений. В итоге, для того, чтобы прочитать с диска исторические данные одного ряда, требуется много disk seeks, что не очень хорошо работает на HDD.