Size: a a a

2021 February 16

ПФ

Паша Финкельштейн... in Moscow Spark
Gev
Прям по хардкору?
Ну да, н в целом как раз про это — прочитать с диска, записать на диск, сугубо последовательно. Прям можно им же перепартицировать
источник

G

Gev in Moscow Spark
Можно как то прочитать так чтобы шаффл не зашкаливал?
источник

G

Gev in Moscow Spark
Они лежат во множестве файлов. Может тупо в цикле по каждому пробежаться?
источник

N

Nail in Moscow Spark
Gev
Народ. Подскажите. Как мне прочитать и сджойнить огромный набор непартийированных данных.  Шаффлинг зашкаливает. Пока приходит в голову только считать и пересохранить все это партицированно . Только боюсь что прочитать и сохранить не получится изза обьемов
А формат исходных данных позволяет их читать частями?
источник

G

Gev in Moscow Spark
Паркет
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gev
Они лежат во множестве файлов. Может тупо в цикле по каждому пробежаться?
Ааааа! Я думал у тебя типа 15 5-терабайтных файлов
источник

N

Nail in Moscow Spark
Ну читайте пачками по n файлов и джойните
источник

ПФ

Паша Финкельштейн... in Moscow Spark
ну да, делаем датафрейм из имён файлов, а потом мапим каждое имя )
источник

G

Gev in Moscow Spark
А что то более технологичное :)
источник

G

Gev in Moscow Spark
Паша Финкельштейн
ну да, делаем датафрейм из имён файлов, а потом мапим каждое имя )
Ух ты а это как?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Gev
Ух ты а это как?
ну ты имена файлов можешь собрать же?
источник

G

Gev in Moscow Spark
Не соображу. Ну есть имена.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
сгоняешь их на мастере в лист, его .toDF(), map(spark.read.parquet(_)).reduce(_ union _)
источник

G

Gev in Moscow Spark
Вот чтобы не тупо циклом а как то в параллель
источник

G

Gev in Moscow Spark
Паша Финкельштейн
сгоняешь их на мастере в лист, его .toDF(), map(spark.read.parquet(_)).reduce(_ union _)
👍
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Сорри, я медленно в телеге код пишу )
источник

G

Gev in Moscow Spark
Да не. Супер
источник

ИК

Иван Калининский... in Moscow Spark
Паша Финкельштейн
сгоняешь их на мастере в лист, его .toDF(), map(spark.read.parquet(_)).reduce(_ union _)
Нет! Нельзя, квадратичная сложность (по крайней мере на spark 2.2)
источник

ИК

Иван Калининский... in Moscow Spark
больше пятисот юнионов и можно килять приложение
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Иван Калининский
Нет! Нельзя, квадратичная сложность (по крайней мере на spark 2.2)
Так подожди, какая разница какая у тебя сложность если пифоманса на это хватает?
источник