R
Есть несколько спарк джоб, которые работают параллельно и append пишут в одну и ту же табличку командой.
df.repartition(200, partitioned_by)
.write.format('orc').partitionBy(partitioned_by).mode('append').saveAsTable(адрес таблицы)
Каждая джоба пишет непересекающиеся партиции. эти партиции в большой таблице изначально отсутствуют
Обычно джоба которая завершает последней летит с ошибкой
j```ava.io.FileNotFoundException: File hdfs://bigdata/apps/hive/warehouse/011_001_0001.db/previous_changes_1/_temporary/0/task_20200520153305_0039_m_000077 does not exist.
```hive, spark 2.3
<db-name>/<table-name>/_temporary/<idx>/<task-unique-number>
Проблема в том, что после записи последней партиции, таск который ее пишет зачищает _temporary директорию, удаляя файлы и из соседнего таска