Всем доброго дня, может подскажет кто
Есть маленький кластер на виртуалках для экспериментаторских целей.
В бакеты грузим большие файлы(около 10гб) при помощи multipart, ну и дальнейшая обработка самописным приложением.
При этом место в цефе улетает со скоростью света - на 100 гб реальных данных в кластере занято 800гб за неделю.
Посмотрели через rados ls - там большая часть занята огромным количеством файлов с multipart и shadow в названии.
Из этого вопросы возникают
1) что такое shadow файлы?
2) должны ли они подвергаться автоматической очистке со стороны кластера?
3) есть ли ручные методы кроме rados rm?
rgw пилит s3 объекты на rados объекты размером не больше заданного, по дефолту вроде 4М
в итоге получается head-объект с манифестом в xattr-ах и хвост из цепочки shadow объектов
multipart - файл делится на парты на стороне клиента и может заливаться параллельно, вроде пока не закончится загрузка в S3 видны multipart объекты (но это не точно), а в конце одним запросом они объединяется в один S3 объект
при удалении rgw удаляет только head объект, а остальные отправляет оставляет для Garbage Collector
при удалении мультипарар S3 объекта я хз, но вроде то-же самое, т.е. удаялются все multipart head объекты, а все shadow остаются для GC