Size: a a a

2021 January 25

EC

Eugene Chipizubov in Moscow Spark
если есть orderBy кол-во tasks зашкаливает
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А, из питона чтоль?
источник

EC

Eugene Chipizubov in Moscow Spark
да, pyspark
источник

EC

Eugene Chipizubov in Moscow Spark
spark.dynamicAllocation.maxExecutors не помогает
источник

ПФ

Паша Финкельштейн... in Moscow Spark
По идее должно быть про порционально количеству экзекьюторов количество тасков?
источник

EC

Eugene Chipizubov in Moscow Spark
если cpu per tasks неменял, то да
источник

EC

Eugene Chipizubov in Moscow Spark
у меня по дефорлту 1 cpu
источник

EC

Eugene Chipizubov in Moscow Spark
т.е. такого в принципе не должно быть
источник

EC

Eugene Chipizubov in Moscow Spark
orderBy убрал, maxExecutors заработал 😭
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А данных на экзекьютор сколько? Может там персист какой-нить и он делает внешнюю сортировкку?
источник

EC

Eugene Chipizubov in Moscow Spark
табличка 400G примерно, данные на один ехекутор не больше 18G
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А памяти на экзекьюторах?
источник

EC

Eugene Chipizubov in Moscow Spark
('spark.executor.memory', '18g')
       ,('spark.driver.memory', '18g')
       ,('spark.scheduler.mode','FAIR')
       ,('spark.ui.enabled','false')
       ,("spark.dynamicAllocation.maxExecutors","80")
       ,('spark.driver.maxResultSize','60g')
источник

EC

Eugene Chipizubov in Moscow Spark
source_df \
 .orderBy("CLASS_ID","TIME","ID") \
       .coalesce(get_repartition_factor(get_hdfs_directory_size(input_path), 1)) \
       .write \
       .parquet(tmp_compact_dir, mode='overwrite')
источник

EC

Eugene Chipizubov in Moscow Spark
больше ничего нет
источник

EC

Eugene Chipizubov in Moscow Spark
все по дефолту
источник

GP

Grigory Pomadchin in Moscow Spark
Eugene Chipizubov
больше ничего нет
Так глянь эксплейн план
источник

GP

Grigory Pomadchin in Moscow Spark
У тебя шафл тригернут
источник

GP

Grigory Pomadchin in Moscow Spark
чему кстати шафл.партишнс равен?
источник

EC

Eugene Chipizubov in Moscow Spark
200
источник