всем привет,
я вчера мучался с запуском spark job на yarn cluster, было две проблемы:
1. в случае если ярн убивает задачу, то в airflow она продолжала висеть как запущенная
2. если я останавливаю задачу в airflow то в ярн она продолжает работать
первую проблема была из-за того, что если master указан как yarn (рекомендованный метод запуска) а не через spark://master, то не отслеживалось состояния драйвера
вторая что не передавалось env в запуск yarn (я вчера кусок кода присылал), это я тоже пофиксил строкой в исходниках+передавая PATH из конфига airflow (path = Variable.get("PATH")), но вот такая ручная передача выглядит кривовато.
Я новичок в airflow, а как вообще принято передавать вот такие системные переменные окружения?