Телеграмм чат группы moscowspark страница 414

Кажется мы про разные вещи говорим. Записывается все правильно, просто при считывании ожидается, что будет создан датафрейм из столько партиций, сколько файлов, а на деле не создается. Выход - repartition при чтении

источник

16:49пожаловаться #4

Salam andra in Moscow Spark

Pavel Klemenkov

Спасибо, теперь понял)

источник

16:50пожаловаться #5

Salam andra in Moscow Spark

Интересно, а прокатит ли использование и repartition( partitionExprs) и partitionBy на сгенеренной колонке

источник

17:12пожаловаться #6

АЖ

Андрей Жуков... in Moscow Spark

Salam andra

Интересно, а прокатит ли использование и repartition( partitionExprs) и partitionBy на сгенеренной колонке

Прокатит для чего?

источник

17:27пожаловаться #7

Salam andra in Moscow Spark

Андрей Жуков

Прокатит для чего?

Чтобы данные примерно были одинаково размазаны по партициям и при чтении этих данных сразу было нужное количество партиций ( внутри spark которые)

источник

17:32пожаловаться #8

АЖ

Андрей Жуков... in Moscow Spark

он сначала сделает нужно количнство партиций через repartition, а потом каждую партицию разложит по partitionBy

источник

17:33пожаловаться #9

Salam andra in Moscow Spark

Пример, почему такой вопрос возник: в примере выше при чтении 1 партиции (папки) мы получили 37 партиций (spark). при чтении 10 партиций (папок) например мы можем получить 10 партиций (spark). Не понятно всегда ли мы получим x партиций (spark) при чтении x партиций (папок)

источник

17:45пожаловаться #10

Алексей in Moscow Spark

а что насчет?:

spark.sql.files.maxPartitionBytes  134217728 (128 MB)  The maximum number of bytes to pack into a single partition when reading files. This configuration is effective only when using file-based sources such as Parquet, JSON and ORC.

источник

17:47пожаловаться #11

Salam andra in Moscow Spark

Алексей

а что насчет?:

spark.sql.files.maxPartitionBytes  134217728 (128 MB)  The maximum number of bytes to pack into a single partition when reading files. This configuration is effective only when using file-based sources such as Parquet, JSON and ORC.

Спасибо) А если есть здоровый файл он идёт в одну партицию?

источник

17:52пожаловаться #12

Алексей in Moscow Spark

судя по описанию выше разобьется на части по 128 мб

источник

17:55пожаловаться #13

A🦕

Alexander Rodionov 🦕... in Moscow Spark

Алексей

а что насчет?:

spark.sql.files.maxPartitionBytes  134217728 (128 MB)  The maximum number of bytes to pack into a single partition when reading files. This configuration is effective only when using file-based sources such as Parquet, JSON and ORC.