Size: a a a

2020 July 21

ЕГ

Евгений Глотов... in Moscow Spark
Bogdan Gromov
Внутри одной бд.
Вот это уже достаточно странно🤔
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно делать msck repair table на новой после переименования
источник

ЕГ

Евгений Глотов... in Moscow Spark
Должно помочь
источник

BG

Bogdan Gromov in Moscow Spark
Пробовал, не помогало :)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Тогда наверно лучше всего будет переименовывать через спарк, если внутри одной схемы
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если перенос в другую - то создать новую таблицу, перенести туда данные и msck repair table
источник

BG

Bogdan Gromov in Moscow Spark
Попробую. Спасибо!
источник

С

Сюткин in Moscow Spark
А потом окажется что хадуп то третий
источник

С

Сюткин in Moscow Spark
источник
2020 July 22

A🦕

Alexander Rodionov 🦕... in Moscow Spark
добрый день
хочу записать спарком датафрейм чтобы было 300 партиций

(
   spark
   .table('db.table1')
   .repartition(300)
   .write
   .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37


а он сохраняет 37
как фиксить?
источник

A

Andrei in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
добрый день
хочу записать спарком датафрейм чтобы было 300 партиций

(
   spark
   .table('db.table1')
   .repartition(300)
   .write
   .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37


а он сохраняет 37
как фиксить?
coalesce()
источник

AK

Alena Korogodova in Moscow Spark
Andrei
coalesce()
Coalesce только уменьшает жеж
источник

PK

Pavel Klemenkov in Moscow Spark
Andrei
coalesce()
coalesce может только уменьшить число партиций. repartition(300)
источник

M

Mi in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
добрый день
хочу записать спарком датафрейм чтобы было 300 партиций

(
   spark
   .table('db.table1')
   .repartition(300)
   .write
   .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37


а он сохраняет 37
как фиксить?
а файлов у вас 300 появляется? Спарк не дает гарантий что  прочитается ровно столько же, сколько записалось
источник

PK

Pavel Klemenkov in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
добрый день
хочу записать спарком датафрейм чтобы было 300 партиций

(
   spark
   .table('db.table1')
   .repartition(300)
   .write
   .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37


а он сохраняет 37
как фиксить?
Погоди, а файликов в hdfs сколько?
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Pavel Klemenkov
coalesce может только уменьшить число партиций. repartition(300)
вот да, одно и то же же просто repartition shuffle добавляет
источник

ИГ

Игорь Гомановский... in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
добрый день
хочу записать спарком датафрейм чтобы было 300 партиций

(
   spark
   .table('db.table1')
   .repartition(300)
   .write
   .saveAsTable('db.table2', mode='overwrite')
)
spark.table('db.table2').rdd.getNumPartitions() # 37


а он сохраняет 37
как фиксить?
Наивный вопрос: а строк в table1 больше, чем 37?
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Mi
а файлов у вас 300 появляется? Спарк не дает гарантий что  прочитается ровно столько же, сколько записалось
проверил, 300 файлов)
тоесть делать repartition при каждом чтении?
ну .persist можно
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Игорь Гомановский
Наивный вопрос: а строк в table1 больше, чем 37?
да, строк 10ки милионов
источник

M

Mi in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
проверил, 300 файлов)
тоесть делать repartition при каждом чтении?
ну .persist можно
скорее всего да, но тут зависит от того  чего  хотели  добиться в итоге
источник