Size: a a a

2021 March 09

AK

Alexander Kirshin in Airflow
по моему это делается чрез BashOperator где просто прописывается bash команда для запуска задачи, но тогда как airflow понимает завершилась ли она успешно + еще читал есть проблема со Spark Context, а точнее передачи его между Spark скриптами
источник

ME

Max Efremov in Airflow
Alexander Kirshin
ребята у меня вопрос у кого нибудь был опыт запуска spark-submit скриптов из airflow и вообще связки apache spark и airflow?
Мы через ливи страдаем...
источник

ME

Max Efremov in Airflow
Не советую)
источник

ME

Max Efremov in Airflow
А спарк сабмит оператор не нравится?
источник

AK

Alexander Kirshin in Airflow
Max Efremov
А спарк сабмит оператор не нравится?
да, нормально через spark-submit, но тогда нужно использовать bashOperator и запускать консольную команду?
источник

AK

Alexander Kirshin in Airflow
Max Efremov
Мы через ливи страдаем...
читал как раз статью на медиуме про ливи там хвалили его)
источник

ME

Max Efremov in Airflow
Alexander Kirshin
да, нормально через spark-submit, но тогда нужно использовать bashOperator и запускать консольную команду?
А зачем баш, если есть SparkSubmitOperator?
источник

AK

Alexander Kirshin in Airflow
Max Efremov
А зачем баш, если есть SparkSubmitOperator?
не видел в доке) посмотрю
источник

ME

Max Efremov in Airflow
Alexander Kirshin
читал как раз статью на медиуме про ливи там хвалили его)
У нас он с дефолтными настройками и умирает на 7+ одновременных сессиях
источник

ME

Max Efremov in Airflow
при спарк сабмите нельзя ему код кинуть, нужно уже иметь код в hdfa/s3 для запуска.
источник

ME

Max Efremov in Airflow
Max Efremov
У нас он с дефолтными настройками и умирает на 7+ одновременных сессиях
Поэтому используем интерактивные сессии...
источник

AK

Alexander Kirshin in Airflow
Max Efremov
У нас он с дефолтными настройками и умирает на 7+ одновременных сессиях
понял) мы как раз только начали строить ETL с нуля и накапливаем базу знаний
источник

ME

Max Efremov in Airflow
Вообще, там какие-то костыли воткнуты, надо всё рефакторить 😂
источник

ME

Max Efremov in Airflow
Max Efremov
У нас он с дефолтными настройками и умирает на 7+ одновременных сессиях
эту багу в 0.7.1 должны бы пофиксить, видел пул реквест с весны того года висел
источник

ME

Max Efremov in Airflow
Вообще да, к ливи основная прtтензия у нас в том, что POST /batches не принимает контент файла для запуска, а только путь до него. Видел PR на это, но там потом забили, найдя другое решение
источник

AK

Alexander Kirshin in Airflow
Max Efremov
при спарк сабмите нельзя ему код кинуть, нужно уже иметь код в hdfa/s3 для запуска.
а как быть если у нас есть python скрипт job py и мы запускаем его через консоль spark - submit job py?
источник

ME

Max Efremov in Airflow
Alexander Kirshin
а как быть если у нас есть python скрипт job py и мы запускаем его через консоль spark - submit job py?
А файл скрипта где лежит, в кластере?
источник

AK

Alexander Kirshin in Airflow
Max Efremov
А файл скрипта где лежит, в кластере?
да, там же просто в любом каталоге на кластере - у нас кластер в standalone 1 машинка и мастер и slave
источник

ME

Max Efremov in Airflow
Если ливи имеет доступ к нему, тогда ок, всё можно запускать через ливи батчами
источник

AK

Alexander Kirshin in Airflow
Max Efremov
Если ливи имеет доступ к нему, тогда ок, всё можно запускать через ливи батчами
попробую, пока с установкой ливи не очень разобрался
источник