Подскажите, если у кого-то был опыт с pyspark в airflow.
Запускаем внутри python operator pyspark-джобы на спарк-кластере под мезосом, иногда бывает ситуация что коннект к зукиперу теряется или еще какая-нибудь турбулентность случается. В этом случае джобы просто виснут, не завершаясь (то есть на кластере уже джоба упала, а воркер инфы об этом не получает и просто висит в незавершенном состоянии).
Ожидаемое поведение — если на кластере джоба не завершилась за ожидаемое время по любым причинам, таска в эйрфлоу должна нормально падать
Мы пробовали сделать execution_timeout (не сработало) и перегрузить on_kill оператора стопом спарк-сессии (тоже не помогло). Какие есть варианты?