Телеграмм чат группы moscowspark страница 624

Продолжаю размышления, может есть абстракция типа RDD => Seq[RDD], и можно на каждый RDD применить полученную ShuffleDependency? Но в конечном итоге они снова должны стать одним RDD, что их Union-ом склеивать?

Ну ладно, предположим, получилось сделать Seq[RDD], но стейдж всё равно останется один, значит, нужен соответствующий план, чтобы каталист знал, как его проходить. Получается, надо писать практически всю реализацию, и всё для того, чтобы не раскидывать одновременно сотни терабайт по дискам на экзекуторах

источник

12:38пожаловаться #10

ИК

Иван Калининский... in Moscow Spark

Иван Калининский

Ну ладно, предположим, получилось сделать Seq[RDD], но стейдж всё равно останется один, значит, нужен соответствующий план, чтобы каталист знал, как его проходить. Получается, надо писать практически всю реализацию, и всё для того, чтобы не раскидывать одновременно сотни терабайт по дискам на экзекуторах

Походу, надо попробовать чекпоинтить ShuffledRowRDD во временную директорию, и посмотреть хотя бы, что будет с Shuffle Write

источник

12:52пожаловаться #11

ИК

Иван Калининский... in Moscow Spark

Иван Калининский

Походу, надо попробовать чекпоинтить ShuffledRowRDD во временную директорию, и посмотреть хотя бы, что будет с Shuffle Write

До эксперимента дело так и не дошло, но, судя по коду, шафл не уменьшится, потому что пока запись последнего шафл-файла не закончена, в каждой секции RDD могут появиться новые записи. А значит, в той же джобе невозможно начать новый стейдж, сколько ни чекпоинти RDD в этой джобе
Есть мысль, что надо смотреть в сторону External shuffle service

источник

13:54пожаловаться #12

JF

Jane Frankenstein in Moscow Spark

привет 🙂 помогите, пожалуйста, с запросом. А то уже запуталась. Есть такой датафрейм, как из всех дупликатов оставить только тот, у кого state NY. Ключ по name, department. Спасибо 🙏

источник

22:12пожаловаться #13

JF

Jane Frankenstein in Moscow Spark