Size: a a a

2020 December 17

AL

Anton Losev in Airflow
Ivan Kizimenko
И в дополнение вот конфиг для интервала

processor_poll_interval
config, which is by default 1 second.
Да, это сработало, но только я там взводил переменную окружения соответствующую и они как-то, видимо, конфликтовали. В итоге посмотрел в сырцы, там читается из конфиги float. Поставил 30.0 в конфе и оно заработало 🤷‍♂️
источник

AL

Anton Losev in Airflow
Переменную окружения снес
источник

AL

Anton Losev in Airflow
При этом и в конфе и в окружении до этого ставил 30
источник

AL

Anton Losev in Airflow
Anton Losev
При этом и в конфе и в окружении до этого ставил 30
Проще всего оказалось смотреть реальный интервал по логам, там для обработки файлов отдельная папка
источник

AL

Anton Losev in Airflow
Ivan Kizimenko
И в дополнение вот конфиг для интервала

processor_poll_interval
config, which is by default 1 second.
Спасибо !🙏
источник

VR

Vadim Rufov in Airflow
всем куфь. ребзя, можно ли в рантайме добавлять новые таски в даг? или это плохая затея?
источник

SG

Sergey Gavrilov in Airflow
Vadim Rufov
всем куфь. ребзя, можно ли в рантайме добавлять новые таски в даг? или это плохая затея?
Можно, норм, возникнут проблемы с бэкфиллингом и временем первого запуска.
источник

VR

Vadim Rufov in Airflow
находил на стаковерфлоу похожий вопрос, но там говорят, что нельзя. мб можешь подсказать как загуглить это правильно
источник

SG

Sergey Gavrilov in Airflow
Vadim Rufov
находил на стаковерфлоу похожий вопрос, но там говорят, что нельзя. мб можешь подсказать как загуглить это правильно
Честно говоря, не знаю, что гуглить. У меня таски создаются по записям в БД... Могу лишь дополнительно посоветовать так не делать, а использовать что-то по-шустрее)
источник

GB

Georgy Borodin in Airflow
Vadim Rufov
всем куфь. ребзя, можно ли в рантайме добавлять новые таски в даг? или это плохая затея?
https://www.linkedin.com/pulse/dynamic-workflows-airflow-kyle-bridenstine/

Делал на 1.10.13, Airflow начало колбасить
источник

GB

Georgy Borodin in Airflow
Нужно сначала понять, зачем нужны эти динамические таски, и можно ли натянуть эту сову на глобус Airflow
источник

GB

Georgy Borodin in Airflow
У тебя даг должен быть идемпотентным (сколько раз ни запускай – результат будет один), а само определение workflow должно быть статичным (в любой момент можно ответить на вопрос "сколько тасков, и как они связаны между собой").

Т.е. логично в рантайме делать, например, так:
1 таск – ShortCircuitOperator, например. В нём получить список того, что нужно будет обработать, положить в Variable/XCOM
2 таск – достать и обработать.

Если нужно распараллелить для скорости, например, отгрузили 200 новых файлов, а хочется их обрабатывать не по одному, а на куче воркеров, то можно класть в JSON-е словарь в Variable, а уже последующим таском доставать соответствующие значения (task_i берёт значения из ключа i).
источник

GB

Georgy Borodin in Airflow
Ну а всевозможные условия – пока что только BranchPythonOperator, не знаю, кстати, можно ли if использовать с результатом таска в 2.0 (Taskflow API будет, но я пока не тестил)
источник

VR

Vadim Rufov in Airflow
ну в бранче там юзать тоже только уже созданные таски
источник

VR

Vadim Rufov in Airflow
всем большое спасибо
источник

ME

Max Efremov in Airflow
Vadim Rufov
всем куфь. ребзя, можно ли в рантайме добавлять новые таски в даг? или это плохая затея?
Если депенд он паст, даг встанет на новых
источник

IK

Ivan Kizimenko in Airflow
Georgy Borodin
Ну а всевозможные условия – пока что только BranchPythonOperator, не знаю, кстати, можно ли if использовать с результатом таска в 2.0 (Taskflow API будет, но я пока не тестил)
вроде как нет такого варианта в таксфлоу. Я пока BranchPythonOperator использую
источник

GB

Georgy Borodin in Airflow
Ivan Kizimenko
вроде как нет такого варианта в таксфлоу. Я пока BranchPythonOperator использую
Ну это логично. Хотя очень хочется, чтобы было проще)
источник

IK

Ivan Kizimenko in Airflow
А есть какие то варианты автоматической чистки логов?
источник

GB

Georgy Borodin in Airflow
Ivan Kizimenko
А есть какие то варианты автоматической чистки логов?
источник