Size: a a a

2020 May 14

GP

Grigory Pomadchin in Moscow Spark
Pavel Klemenkov
Как обычный спарк. Ну и с десяток опций как обычно )
а это как отдельный дистр будет или законтрибутят в кор?
источник

GP

Grigory Pomadchin in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Grigory Pomadchin
а это как отдельный дистр будет или законтрибутят в кор?
Выглядит как плагин, просто два джарника закидываешь
источник

GP

Grigory Pomadchin in Moscow Spark
👍
источник

AB

Aleksandr Borgardt in Moscow Spark
Pavel Klemenkov
Ну он, по факту, уже есть при чём, что радует, если оператор не реализован на gpu, то он не падает, а продолжает работать на CPU. В отличие от даска того же
мы щас ведем неравную барьбу с этим багом  в даске думаю  попробуем залить в master
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
Есть, но пока внутри
Обидно, что внутри
источник

PK

Pavel Klemenkov in Moscow Spark
KrivdaTheTriewe
Обидно, что внутри
Все будет
источник
2020 May 18

SK

Sergej Khakhulin in Moscow Spark
Привет всем, вопрос, как при сохранение df, сохранить партиционирование, которое было у исходного df?
источник

PK

Pavel Klemenkov in Moscow Spark
Для всех встроенных форматов сохраняется столько партиций, сколько было
источник

M

Mi in Moscow Spark
возможно он про partitionBy
источник

AS

Andrey Smirnov in Moscow Spark
Sergej Khakhulin
Привет всем, вопрос, как при сохранение df, сохранить партиционирование, которое было у исходного df?
сохранить исходный партишионер, и потом его применить для результирующего
источник
2020 May 19

SK

Sergej Khakhulin in Moscow Spark
Andrey Smirnov
сохранить исходный партишионер, и потом его применить для результирующего
это в разных тасках происходит, так что его не сохранить
источник

SK

Sergej Khakhulin in Moscow Spark
Mi
возможно он про partitionBy
ну я сохряняю исходный паркет с partitionBy
источник
2020 May 20

AN

Aleksandr Nikolaev in Moscow Spark
Всем привет. такой вопрос.
Есть несколько спарк джоб, которые работают параллельно и append пишут в одну и ту же табличку командой.

df.repartition(200, partitioned_by)
.write.format('orc').partitionBy(partitioned_by).mode('append').saveAsTable(адрес таблицы)


Каждая джоба пишет непересекающиеся партиции. эти партиции в большой таблице изначально отсутствуют

Обычно джоба которая завершает последней летит с ошибкой
j```ava.io.FileNotFoundException: File hdfs://bigdata/apps/hive/warehouse/011_001_0001.db/previous_changes_1/_temporary/0/task_20200520153305_0039_m_000077 does not exist.
```hive, spark 2.3
источник

D

Dima Kubitskiy in Moscow Spark
я бы попробовал записывать результаты не параллельно, а поочереди
источник

AN

Aleksandr Nikolaev in Moscow Spark
Задача писать именно параллельно
источник

D

Dima Kubitskiy in Moscow Spark
пытаться обновлять один и тотже фаил параллельно -> звучит сомнительно.
источник

AN

Aleksandr Nikolaev in Moscow Spark
Да, звучит сомнительно, можно считать что у тебя сомнительное ограничение на задачу
источник

А

Алексей in Moscow Spark
если писать в разные партиции, то по идее не должно пересекаться по файлам
источник

D

Dima Kubitskiy in Moscow Spark
мб одна временная хрень, перезаписала другую временную хрень
источник