Size: a a a

2021 January 26

z

zxyzxy in Airflow
источник

A

Anton in Airflow
Привет!

Подскажите,как можно передавать и парсить переменные между дагами. В случае когда dag запускается при помощи TriggerDagRunOperator
источник

z

zxyzxy in Airflow
источник

z

zxyzxy in Airflow
Georgy Borodin
Лучше всего генерить даги динамически, а не таски в них
Я на самом деле и таски внутри дага генерил, просто когда что-то менялось (количество тасок) то я менял версию дага
источник

GB

Georgy Borodin in Airflow
zxyzxy
Я на самом деле и таски внутри дага генерил, просто когда что-то менялось (количество тасок) то я менял версию дага
Только так и правильно, только эте не автоматом же)
источник

z

zxyzxy in Airflow
ну автоматом, же, таски генерятся по переменной, тоесть условно поменялась переменная (количество итераций в нашем случае) ну и меняется версия, все дела
источник

А

Анастасия in Airflow
А я правильно понимаю, что если мы генерим таски, как здесь описано, то вот этот код выполняется постоянно, а не только когда пришло время запуска дага?
Насколько это будет все нагружать?
источник

GB

Georgy Borodin in Airflow
Анастасия
А я правильно понимаю, что если мы генерим таски, как здесь описано, то вот этот код выполняется постоянно, а не только когда пришло время запуска дага?
Насколько это будет все нагружать?
Только хотел об этом написать сообщение. Да, он будет по poll_interval выполняться (не помню точное название конфиг-параметра). Дефолт раз в минуту вроде бы

Нагружать будет в соответствии с тем, какой код у тебя там 🤷🏻‍♂️

Если смущают лишние коннекты к внешней базе, то можно написать ещё один даг, который будет записывать названия таблиц в Variable, а другие даги уже будут ориентироваться на это значение
источник

GB

Georgy Borodin in Airflow
Анастасия
А я правильно понимаю, что если мы генерим таски, как здесь описано, то вот этот код выполняется постоянно, а не только когда пришло время запуска дага?
Насколько это будет все нагружать?
А вообще вариантов много. Можно написать всего один даг с флоу для одной таблицы, а другим создавать даг раны, передавая в конфиге названия таблиц
источник

А

Анастасия in Airflow
Georgy Borodin
А вообще вариантов много. Можно написать всего один даг с флоу для одной таблицы, а другим создавать даг раны, передавая в конфиге названия таблиц
Такой вариант сложно отслеживать, насколько я понимаю. То есть у нас будет какой-то даг, который триггерит другой, и он всегла будет заканчиваться успехом
источник

GB

Georgy Borodin in Airflow
Анастасия
Такой вариант сложно отслеживать, насколько я понимаю. То есть у нас будет какой-то даг, который триггерит другой, и он всегла будет заканчиваться успехом
Ну разве что если ручками
источник

IK

Ivan Kizimenko in Airflow
А есть что нибудь для эирфлоу чтоб залезть в докер контейнер и там запустить команду и получить результат?
источник

GB

Georgy Borodin in Airflow
Ivan Kizimenko
А есть что нибудь для эирфлоу чтоб залезть в докер контейнер и там запустить команду и получить результат?
В запущенный контейнер?
источник

IK

Ivan Kizimenko in Airflow
Да
источник

GB

Georgy Borodin in Airflow
SSH/Bash в помощь
источник

А

Анастасия in Airflow
Georgy Borodin
Только хотел об этом написать сообщение. Да, он будет по poll_interval выполняться (не помню точное название конфиг-параметра). Дефолт раз в минуту вроде бы

Нагружать будет в соответствии с тем, какой код у тебя там 🤷🏻‍♂️

Если смущают лишние коннекты к внешней базе, то можно написать ещё один даг, который будет записывать названия таблиц в Variable, а другие даги уже будут ориентироваться на это значение
Да я в принципе хотела названия таблиц записать в какой-нибудь json, так как это должна быть очень редко изменяемая вещь. Просто не хочется делать 28 одинаковых тасков/дагов, а потом думать, как добавить 29)
источник

z

zxyzxy in Airflow
Анастасия
Да я в принципе хотела названия таблиц записать в какой-нибудь json, так как это должна быть очень редко изменяемая вещь. Просто не хочется делать 28 одинаковых тасков/дагов, а потом думать, как добавить 29)
Ну это как раз нормальный кейс для такой реализации, либо json файлик, либо внутри переменной все хранится. Мы так у себя делаем, не могу сказать что сильно нагружает что-то
источник

AA

Anton Afonin in Airflow
Анастасия
А я правильно понимаю, что если мы генерим таски, как здесь описано, то вот этот код выполняется постоянно, а не только когда пришло время запуска дага?
Насколько это будет все нагружать?
У нас было очень много запросов к базе, я накостылил схему с файликом
источник

А

Анастасия in Airflow
Спасибо большое)
источник

IK

Ivan Kizimenko in Airflow
Georgy Borodin
Ну да. Ещё smart_open кстати могу посоветовать для создания гзипнутых файлов везде
не пойму, можно ли вместо AWS S3 юзать в нем Yandex аналог s3
источник