Телеграмм чат группы moscowspark страница 554

Не делать так. Во всех случаях работало дольше или фейлилось. Персист только для небольших сложных планов с многократным использованием или, как мне недавно подсказал Григорий, если используются DF.checkpoint

источник

11:18пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

Если это паркет без фильтров, то есть вариант читать футеры и брать из них количество записей, оно там точное. И есть по каждой колонке количество null

Если просто проверить, есть ли хоть одна запись,
def isEmpty(df: DataFrame): Boolean = df.head(1).isEmpty

Если просто попробовать догадаться, прочитает ли DF что-нибудь, можно поискать файлы в читаемых путях, но df сам это делает, когда инферит схему, если файлов нет, то бросит исключение и всё будет понятно

источник

11:38пожаловаться #10

G

Gev in Moscow Spark

Иван Калининский

Если это паркет без фильтров, то есть вариант читать футеры и брать из них количество записей, оно там точное. И есть по каждой колонке количество null

Если просто проверить, есть ли хоть одна запись,
def isEmpty(df: DataFrame): Boolean = df.head(1).isEmpty

Если просто попробовать догадаться, прочитает ли DF что-нибудь, можно поискать файлы в читаемых путях, но df сам это делает, когда инферит схему, если файлов нет, то бросит исключение и всё будет понятно

То есть предложение читать футеры паркета и брать инфу оттуда

источник

12:02пожаловаться #11

ИК

Иван Калининский... in Moscow Spark

да, это именно такое предложение))

источник

12:03пожаловаться #12

G

Gev in Moscow Spark

Иван Калининский

да, это именно такое предложение))

Так вопрос в том что днные паркета джойнятся со справочником. И вот в результате джойна не понятно - есть данные или нет. Так в результате придется сохранять

источник

12:04пожаловаться #13

ИК

Иван Калининский... in Moscow Spark

Есть джоин - нет простых путей.

источник

12:04пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

результат недетерминированный, сначала нужно полностью выполнить, сэмплы могут давать недостоверные результаты

источник

12:05пожаловаться #15

AA

Aleksandr Aleksandro... in Moscow Spark

Иван Калининский

Если это паркет без фильтров, то есть вариант читать футеры и брать из них количество записей, оно там точное. И есть по каждой колонке количество null

Если просто проверить, есть ли хоть одна запись,
def isEmpty(df: DataFrame): Boolean = df.head(1).isEmpty

Если просто попробовать догадаться, прочитает ли DF что-нибудь, можно поискать файлы в читаемых путях, но df сам это делает, когда инферит схему, если файлов нет, то бросит исключение и всё будет понятно

А разве когда на паркетах без всего просто делаешь каунт, он так не делает? Там же вроде такая логика и есть - читает просто футеры и складывает

источник

12:09пожаловаться #16

ИК

Иван Калининский... in Moscow Spark

Aleksandr Aleksandrov

А разве когда на паркетах без всего просто делаешь каунт, он так не делает? Там же вроде такая логика и есть - читает просто футеры и складывает

пока что не могу этому поверить. RDD как правило читает не файлы полностью, а блоки hdfs, поэтому ему нужно пройтись по итераторам

источник

12:12пожаловаться #17

ИК

Иван Калининский... in Moscow Spark

Но если покажете в исходниках - буду рад это увидеть, хорошая же оптимизация

источник

12:14пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

Если есть джойн — можно попробовать изобрести велосипед с мининимизацией количества данных

источник

12:14пожаловаться #19

ПФ

Паша Финкельштейн... in Moscow Spark

селектим только джойн-колонки, дальше на них выполняем джойн и проверяем размер

источник

12:14пожаловаться #20