Всем привет. такой вопрос.
Есть несколько спарк джоб, которые работают параллельно и append пишут в одну и ту же табличку командой.
df.repartition(200, partitioned_by)
.write.format('orc').partitionBy(partitioned_by).mode('append').saveAsTable(адрес таблицы)
Каждая джоба пишет непересекающиеся партиции. эти партиции в большой таблице изначально отсутствуют
Обычно джоба которая завершает последней летит с ошибкой
j```ava.io.FileNotFoundException: File hdfs://bigdata/apps/hive/warehouse/011_001_0001.db/previous_changes_1/_temporary/0/task_20200520153305_0039_m_000077 does not exist.
```hive, spark 2.3