У нас с аналитиков только sql требуют, но даже в работе почти не использует его ) Python pyspark похоже только для тех кто на проектах с хранилищами данных работает, или какие там задачи решать с помощью этого. ? Просто касательно инженеров данных вопросов нет, но вот что делать аналитику ? Для ответа на этот вопрос у меня не хватает компетенции (( мне кажется там какой то пересекающийся функционал с инженером.
Коллеги, кто закапывался в исходники, когда создан FileScanRDD, можно связать размер прочитанных блоков и размер партиций этого RDD? В сорцах я этого не увидел вообще, но может есть какой-то объект, которого я не нашёл, а у него подходящий метод?
Хочу подтянуть PartitionPruningRDD, побить исходный RDD на Seq[RDD] и делать им repartition по очереди, потому что пару сотен терабайт шафла наш кластер не вытянет