Телеграмм чат группы moscowspark страница 333

Ну он, по факту, уже есть при чём, что радует, если оператор не реализован на gpu, то он не падает, а продолжает работать на CPU. В отличие от даска того же

мы щас ведем неравную барьбу с этим багом в даске думаю попробуем залить в master

источник

19:39пожаловаться #5

KrivdaTheTriewe in Moscow Spark

Pavel Klemenkov

Есть, но пока внутри

Обидно, что внутри

источник

19:46пожаловаться #6

Pavel Klemenkov in Moscow Spark

KrivdaTheTriewe

Обидно, что внутри

Все будет

источник

19:53пожаловаться #7

2020 May 18

Sergej Khakhulin in Moscow Spark

Привет всем, вопрос, как при сохранение df, сохранить партиционирование, которое было у исходного df?

источник

19:05пожаловаться #8

Pavel Klemenkov in Moscow Spark

Для всех встроенных форматов сохраняется столько партиций, сколько было

источник

19:17пожаловаться #9

Mi in Moscow Spark

возможно он про partitionBy

источник

19:58пожаловаться #10

Andrey Smirnov in Moscow Spark

Sergej Khakhulin

Привет всем, вопрос, как при сохранение df, сохранить партиционирование, которое было у исходного df?

сохранить исходный партишионер, и потом его применить для результирующего

источник

20:18пожаловаться #11

2020 May 19

Sergej Khakhulin in Moscow Spark

Andrey Smirnov

сохранить исходный партишионер, и потом его применить для результирующего

это в разных тасках происходит, так что его не сохранить

источник

02:24пожаловаться #12

Sergej Khakhulin in Moscow Spark

возможно он про partitionBy

ну я сохряняю исходный паркет с partitionBy

источник

02:24пожаловаться #13

2020 May 20

Aleksandr Nikolaev in Moscow Spark

Всем привет. такой вопрос.
Есть несколько спарк джоб, которые работают параллельно и append пишут в одну и ту же табличку командой.

df.repartition(200, partitioned_by)
.write.format('orc').partitionBy(partitioned_by).mode('append').saveAsTable(адрес таблицы)

Каждая джоба пишет непересекающиеся партиции. эти партиции в большой таблице изначально отсутствуют

Обычно джоба которая завершает последней летит с ошибкой
j```ava.io.FileNotFoundException: File hdfs://bigdata/apps/hive/warehouse/011_001_0001.db/previous_changes_1/_temporary/0/task_20200520153305_0039_m_000077 does not exist.
```hive, spark 2.3

источник

15:49пожаловаться #14

Dima Kubitskiy in Moscow Spark

я бы попробовал записывать результаты не параллельно, а поочереди

источник

15:54пожаловаться #15

Aleksandr Nikolaev in Moscow Spark

Задача писать именно параллельно

источник

15:55пожаловаться #16

Dima Kubitskiy in Moscow Spark

пытаться обновлять один и тотже фаил параллельно -> звучит сомнительно.