Телеграмм чат группы moscowspark страница 411

(
    spark
    .table('db.table1')
    .repartition(300)
    .write
    .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37

а он сохраняет 37
как фиксить?

источник

15:26пожаловаться #10

Andrei in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

добрый день
хочу записать спарком датафрейм чтобы было 300 партиций

(
    spark
    .table('db.table1')
    .repartition(300)
    .write
    .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37

а он сохраняет 37
как фиксить?

coalesce()

источник

15:27пожаловаться #11

Alena Korogodova in Moscow Spark

Andrei

coalesce()

Coalesce только уменьшает жеж

источник

15:27пожаловаться #12

Pavel Klemenkov in Moscow Spark

Andrei

coalesce()

coalesce может только уменьшить число партиций. repartition(300)

источник

15:28пожаловаться #13

Mi in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

добрый день
хочу записать спарком датафрейм чтобы было 300 партиций

(
    spark
    .table('db.table1')
    .repartition(300)
    .write
    .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37

а он сохраняет 37
как фиксить?

а файлов у вас 300 появляется? Спарк не дает гарантий что прочитается ровно столько же, сколько записалось

источник

15:28пожаловаться #14

Pavel Klemenkov in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

добрый день
хочу записать спарком датафрейм чтобы было 300 партиций

(
    spark
    .table('db.table1')
    .repartition(300)
    .write
    .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37

а он сохраняет 37
как фиксить?

Погоди, а файликов в hdfs сколько?

источник

15:28пожаловаться #15

A🦕

Alexander Rodionov 🦕... in Moscow Spark

Pavel Klemenkov

coalesce может только уменьшить число партиций. repartition(300)

вот да, одно и то же же просто repartition shuffle добавляет

источник

15:28пожаловаться #16

ИГ

Игорь Гомановский... in Moscow Spark

Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾

добрый день
хочу записать спарком датафрейм чтобы было 300 партиций

(
    spark
    .table('db.table1')
    .repartition(300)
    .write
    .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37

а он сохраняет 37
как фиксить?

Наивный вопрос: а строк в table1 больше, чем 37?

источник

15:32пожаловаться #17

A🦕

Alexander Rodionov 🦕... in Moscow Spark

а файлов у вас 300 появляется? Спарк не дает гарантий что прочитается ровно столько же, сколько записалось

проверил, 300 файлов)
тоесть делать repartition при каждом чтении?
ну .persist можно

источник

15:32пожаловаться #18

A🦕

Alexander Rodionov 🦕... in Moscow Spark