А так в воздух еще можно сказать, что если данные лежат строго по sharding key, то можно сказать не ходить на те шарды, где нужных данных быть не может.
Натравить кодеки(быстрее данные будут считываться с диска)
возможно для некоторых запросов подойдет SAMPLING
Но без запросов особо не помочь
SAMPLING не подойдет, нужны более менее точные расчеты, данные по всему кластеру лежат, можно выделять партиции по суткам например, чтобы обращаться только к одной партиции?