spark = (
pyspark
.sql
.SparkSession
.builder
.master("yarn")
.appName(f"test")
.config("spark.driver.cores", "10")
.config("spark.driver.memory", "100G")
.config("spark.executor.instances","400")
.config("spark.executor.cores", "1")
.config("spark.executor.memory", "2G")
.config("spark.python.worker.reuse", "false")
.config("yarn.nodemanager.vmem-check-enabled", "false")
.enableHiveSupport()
.getOrCreate()
)
Как возможный совет - увеличить количество коров на экзекутор, а то получается оверхед за счёт того, что на каждый jvm всего одна корова.