Александр
чтобы можно было разделить на шаги, так вроде проще отлавливать исключения, т.е. если какая-то одна из бд не отвечает, то сразу видно по таскам какая
На самом деле, причина декомпозиции etl процессов на несколько тасок другая.
Если у вас первая таска получает данные очень долго, например из какой-ниьудь внешней апишки, и если к тому же, эта апишка имеет лимиты на обращение к ней, то, разбив таску на 2, вы делаете процесс более стабильным. Первая таска получает данные, сохраняет их в надежное и стабильное хранилище (s3, hdfs, ...), а вторая таска читает данные из хранилища. Однако, в таком случае вам надо обеспечить это самое хранилище.