Size: a a a

2020 July 22

N

Nikolay in Moscow Spark
У него есть функция , которая по ключу возвращает номер партиции. В этом его весь смысл и состоит.
источник

PK

Pavel Klemenkov in Moscow Spark
Nikolay
Он скорее не на датафэйм, а на шафл
Фактически верно, но не стал про это говорить, чтоб нить разговора не уходила
источник

Sa

Salam andra in Moscow Spark
А прокатит решение через write.partitionBy или в нем есть какие-то проблемы по сравнению с repartition?
источник

PK

Pavel Klemenkov in Moscow Spark
Salam andra
А прокатит решение через write.partitionBy или в нем есть какие-то проблемы по сравнению с repartition?
Кажется мы про разные вещи говорим. Записывается все правильно, просто при считывании ожидается, что будет создан датафрейм из столько партиций, сколько файлов, а на деле не создается. Выход - repartition при чтении
источник

Sa

Salam andra in Moscow Spark
Pavel Klemenkov
Кажется мы про разные вещи говорим. Записывается все правильно, просто при считывании ожидается, что будет создан датафрейм из столько партиций, сколько файлов, а на деле не создается. Выход - repartition при чтении
Спасибо, теперь понял)
источник

Sa

Salam andra in Moscow Spark
Интересно, а прокатит ли использование  и repartition( partitionExprs) и partitionBy на  сгенеренной колонке
источник

АЖ

Андрей Жуков... in Moscow Spark
Salam andra
Интересно, а прокатит ли использование  и repartition( partitionExprs) и partitionBy на  сгенеренной колонке
Прокатит для чего?
источник

Sa

Salam andra in Moscow Spark
Андрей Жуков
Прокатит для чего?
Чтобы данные примерно были одинаково размазаны по партициям и при чтении этих данных сразу было нужное количество партиций ( внутри spark которые)
источник

АЖ

Андрей Жуков... in Moscow Spark
он сначала сделает нужно количнство партиций через repartition, а потом каждую партицию разложит по partitionBy
источник

Sa

Salam andra in Moscow Spark
Пример, почему такой вопрос возник:  в примере выше при чтении 1 партиции (папки) мы получили 37 партиций (spark). при чтении 10  партиций (папок) например мы можем получить 10 партиций (spark). Не понятно всегда ли мы получим x партиций (spark) при чтении x партиций (папок)
источник

А

Алексей in Moscow Spark
а что насчет?:
spark.sql.files.maxPartitionBytes  134217728 (128 MB)  The maximum number of bytes to pack into a single partition when reading files. This configuration is effective only when using file-based sources such as Parquet, JSON and ORC.
источник

Sa

Salam andra in Moscow Spark
Алексей
а что насчет?:
spark.sql.files.maxPartitionBytes  134217728 (128 MB)  The maximum number of bytes to pack into a single partition when reading files. This configuration is effective only when using file-based sources such as Parquet, JSON and ORC.
Спасибо) А если есть здоровый файл  он  идёт в одну партицию?
источник

А

Алексей in Moscow Spark
судя по описанию выше разобьется на части по 128 мб
источник

A🦕

Alexander Rodionov 🦕... in Moscow Spark
Алексей
а что насчет?:
spark.sql.files.maxPartitionBytes  134217728 (128 MB)  The maximum number of bytes to pack into a single partition when reading files. This configuration is effective only when using file-based sources such as Parquet, JSON and ORC.
спасибо, помогло!
источник

GT

Gennady Timofeev in Moscow Spark
Евгений Глотов
Можно вроде прикрутить вместо дерби другие базы, чтоб на них спарк метастор крутился
Засунули метастор в рдс, наблюдаем за полетом 🤔
источник
2020 July 23

DZ

Dmitry Zuev in Moscow Spark
Привет, подскажите какие джарники нужны для работы с Azure Data Lake gen2 (abfss://) ?
источник

DZ

Dmitry Zuev in Moscow Spark
никак не могу найти
источник

GP

Grigory Pomadchin in Moscow Spark
Dmitry Zuev
Привет, подскажите какие джарники нужны для работы с Azure Data Lake gen2 (abfss://) ?
hadoop-azure
источник

GP

Grigory Pomadchin in Moscow Spark
оно org.apache.hadoop.fs.azurebfs.Abfss
источник

GP

Grigory Pomadchin in Moscow Spark
источник