Телеграмм чат группы moscowspark страница 413

Alexander Rodionov 🦕... in Moscow Spark

16:05пожаловаться #1

A🦕

partitionBy после write?

в partitionBy нужно указывать колонку/несколько по которым партицировать - а у меня нет уникальной колонки) мне просто равномерно разбить нужно
ну можно наверное в таких случаях добавить какой нибудь zipWithIndex`/`zipWithUniqueId

16:07пожаловаться #2

Можно добавить колонку , в ней сгенерить рандомное число и взять остаток от деления

16:09пожаловаться #3

partitionBy после write?

Погоди, мы же уже выяснили, что записывается столько файлов, сколько надо. При чтении уже другой партишенер будет

16:15пожаловаться #4

Pavel Klemenkov

Если правильно понимаю, то записываются все 300 файлов в 1 партицию или это не так @tandav

16:26пожаловаться #5

Вру, 37 или не понимаю что происходит

16:27пожаловаться #6

Если правильно понимаю, то записываются все 300 файлов в 1 партицию или это не так @tandav

Так, давай теперь выясним, что ты имеешь в виду под партицией?

16:28пожаловаться #7

Pavel Klemenkov

Так, давай теперь выясним, что ты имеешь в виду под партицией?

Папка на hdfs

16:28пожаловаться #8

@tandav А сколько папок(партиций) создаётся на hdfs при использовании repartition?

Alexander Rodionov 🦕... in Moscow Spark

16:30пожаловаться #9

A🦕

p (2).txt

(46.11 Кб)

проверил число уникальных названий - 300
все в 1 папке table

-rw-r-----
нету d в начале значит это файлы-партиции а не папки

upd: обновил файл

16:31пожаловаться #10

Папка на hdfs

Ок, но проблема-то не в этом. Проблема в том, что записываются честные 300 файликов, а считываются эти файлики в 37 партиций нового датафрйма.

16:32пожаловаться #11

Партиции хайва здесь вообще не при делах

https://kb.databricks.com/execution/increase-tasks-per-stage.html#:~:text=When%20data%20is%20read%20from,in%20the%20notebook%20with%20spark.

16:32пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Евгений Глотов

Databricks

Increase the number of tasks per stage — Databricks Knowledge Base

Learn how to increase the number of tasks per stage when using the spark-xml package with Databricks.

Вот параметр, который заставляет спарк группировать записи из разных файлов при чтении в один инпут сплит, в один таск

16:36пожаловаться #13

Pavel Klemenkov

А мы ожидаем что под каждый файл будет 1 партишнер?

Alexander Rodionov 🦕... in Moscow Spark

16:36пожаловаться #14

A🦕

Евгений Глотов

https://kb.databricks.com/execution/increase-tasks-per-stage.html#:~:text=When%20data%20is%20read%20from,in%20the%20notebook%20with%20spark.

Databricks

Increase the number of tasks per stage — Databricks Knowledge Base

Learn how to increase the number of tasks per stage when using the spark-xml package with Databricks.

ну по идее вот тут описана причина
но проверить к сожалению сейчас не могу
там написано из юпитера нельзя
а в конфиги сейчас не смогу лезть

checkpoint если что помог после чтение + repartition

16:38пожаловаться #15

А мы ожидаем что под каждый файл будет 1 партишнер?

Партишенер - это объект, который нарезает записи по партициям спарка. Он один на каждый датафрейм

16:41пожаловаться #16

Алексей in Moscow Spark

есть еще такой параметр spark.sql.files.maxPartitionBytes