Телеграмм чат группы moscowspark страница 402

2020 July 07

DG

Denis Gabaydulin in Moscow Spark

Pavel Klemenkov

Заметьте, кстати, что в яндексе, после ухода императора, снова стали пилить подстольные спарки

Теперь "спарки" не подпольные, а оффициальные!

источник

12:59пожаловаться #1

K

KGM in Moscow Spark

Друзья, здравствуйте)

Есть ли какие-нибудь best practice по "развертке" wrapped array?

К примеру, есть такой датафрейм со следующей схемой

|-- field_1: string (nullable = true)
|-- field_2: string (nullable = true)
|-- field_3: struct (nullable = true)
| |-- field_3_1: array (nullable = true)
| | |-- element: struct (containsNull = true)
| | | |-- field_3_1_1: string (nullable = true)
| | | |-- field_3_1_2: string (nullable = true)
| | | |-- field_3_1_3: long (nullable = true)
| | | |-- field_3_1_4: struct (nullable = true)
| | | | |-- field_3_1_4_1: array (nullable = true)
| | | | | |-- element: struct (containsNull = true)
| | | | | | |-- field_3_1_4_1_1: string (nullable = true)
| | | | | | |-- field_3_1_4_1_2: string (nullable = true)
| | | | | | |-- field_3_1_4_1_3: long (nullable = true)
| | | | | | |-- field_3_1_4_1_4: struct (nullable = true)

Может быть, что в field_3_1_4_1 будет еще одна вложенность

Сталкивался ли кто с подобным?

источник

17:15пожаловаться #2

ПФ

Паша Финкельштейн... in Moscow Spark

Не совсем понятен вопрос.

источник

17:16пожаловаться #3

ПФ

Паша Финкельштейн... in Moscow Spark

Там же тип есть, так?

источник

17:16пожаловаться #4

K

KGM in Moscow Spark

Да, верно

источник

17:17пожаловаться #5

ПФ

Паша Финкельштейн... in Moscow Spark

Если тип известен — то что мешает делать explode пока структура не станет плоской?

источник

17:17пожаловаться #6

K

KGM in Moscow Spark

Их жутко много — порядка 10 вложенностей с N возможных вложенностей внутри)

источник

17:17пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Рекурсивно можно до заданного уровня эксплоудить, если известны какие-то мелкие массивы, то их можно по колонкам раскатать

источник

17:18пожаловаться #8

K

KGM in Moscow Spark

Паша Финкельштейн

Если тип известен — то что мешает делать explode пока структура не станет плоской?

Вопрос, наверное, в следующем: ок ли так и делать?)

источник

17:18пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

KGM

Вопрос, наверное, в следующем: ок ли так и делать?)

ну ариантов-то не так много — либо в колонки, либо эксплоудить

источник

17:19пожаловаться #10

K

KGM in Moscow Spark

Спасибо всем)

источник

17:32пожаловаться #11

AS

Andrey Smirnov in Moscow Spark

KGM

Их жутко много — порядка 10 вложенностей с N возможных вложенностей внутри)

Так если у вас уже есть тип, case class, то может проще передавать в udf и брать нужные поля?

источник

17:36пожаловаться #12

ПФ

Паша Финкельштейн... in Moscow Spark

собственно просто использовать нормальные типихированные датасеты и преобразовывать данные так, как удобно

источник

17:36пожаловаться #13

2020 July 08

G

Gev in Moscow Spark

Народ, поскажите, скорее всего стандартная ситуация но не могу найти как ее решить.
Я пару раз запустил spark-submit с —jars. Потом эти jars пересобрал (нашел ошибки) но после повторного запуска spark-submit он цепляет “старые версии” этих jars
Как это победить? Как заставить spark-submit цеплять ВСЕГДА новые jars?

источник

10:46пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Gev

Народ, поскажите, скорее всего стандартная ситуация но не могу найти как ее решить.
Я пару раз запустил spark-submit с —jars. Потом эти jars пересобрал (нашел ошибки) но после повторного запуска spark-submit он цепляет “старые версии” этих jars
Как это победить? Как заставить spark-submit цеплять ВСЕГДА новые jars?

вообще самое простое — это fat jar собрать. Не вариант?

источник

10:47пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

в jars локальные пути? Имена файлов после пересборки поменялись?

источник

10:49пожаловаться #16

G

Gev in Moscow Spark

Ну да, самое простое - согласен. Но мы сейчас пошли по пути - разбить логику на библиотеки
jars лежат в hdfs
имена НЕ поменялись

источник

10:50пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

Gev

Ну да, самое простое - согласен. Но мы сейчас пошли по пути - разбить логику на библиотеки
jars лежат в hdfs
имена НЕ поменялись

To make Spark runtime jars accessible from YARN side, you can specify spark.yarn.archive or spark.yarn.jars. For details please refer to Spark Properties. If neither spark.yarn.archive nor spark.yarn.jars is specified, Spark will create a zip file with all jars under $SPARK_HOME/jars and upload it to the distributed cache.

источник

10:50пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

Другими словами не меняются имена — используются закешированные либы

источник

10:50пожаловаться #19

ПФ

Паша Финкельштейн... in Moscow Spark

Потому что distributed cache

источник

10:50пожаловаться #20