Size: a a a

2020 June 23

BB

Bral Bral in Airflow
Bral Bral
В документации : Set the number of runs to execute before exiting
Т.е он будет каждые 25 запусков дагов выходить ?
источник

BB

Bral Bral in Airflow
Max Efremov
а у меня отрубается, когда питон оператор долго работает. В UI пишет, что шедулер не отвечает. Это нормальное поведение?
Не замечал такого.
источник

VS

Vladislav 👻 Shishkov... in Airflow
Bral Bral
На днях столкнулся с тем , что шедулер просто перестает работать . На ui отображается , как последний хертбит был получен N времени назад . Версия 1.10.10. покопался , нашел свежую тему https://github.com/apache/airflow/issues/7935 . Пишут что нужно запускать с параметром -n .
я бы не стал этого делать
источник

VS

Vladislav 👻 Shishkov... in Airflow
есть подозрение, что это касяк работы в кубике
источник

BB

Bral Bral in Airflow
Vladislav 👻 Shishkov
я бы не стал этого делать
ну , а насчет выхода -  предположение правильное?
источник

VS

Vladislav 👻 Shishkov... in Airflow
у нас в проде нормально работает
источник

VS

Vladislav 👻 Shishkov... in Airflow
без кубика на виртуалке
источник

VS

Vladislav 👻 Shishkov... in Airflow
шедулер в потолке - это на самом деле может быть 100500 причин, включая кривой даг
источник

VS

Vladislav 👻 Shishkov... in Airflow
я бы ставил либо на кривой даг, либо на проблему совместимости версий либ, хотя вроде в 10.10 пофиксили либы, которые аффектили шедулер, там остались проблемы только для вебсервера 🤔
источник

BB

Bral Bral in Airflow
когда уже это закончится, из версию в версию какие-то приколы.
источник

VS

Vladislav 👻 Shishkov... in Airflow
Когда разрабы начнут фиксировать версии жестко, а не от текущей до бесконечности
источник

ME

Max Efremov in Airflow
У аирфлоу как-то странно с версионированием, в 1.10.9 опции none_failed_or_skipped нет, появилась в 1.10.10... Хотя по идее минорные версии для фикса багов же...
источник

AS

Alex Sinev in Airflow
Здравствуйте, я не знаю эйрфлоу/luigi/prefect и спрошу, правильно ли я зашел. Есть такая задача - постоянно перегонять dbf-файлы (да, они существуют!), собирающиеся в некой директории.
Есть скрипт на Python, достаточно большой (предполагается, что на каждый dbf есть логика-transform), который забирает и гонит в postgres данные. К сожалению, скрипт периодически падает, или данные не доходят. Но контролируется это плохо. Предполается масштабирование в будущем, возможно другие форматы данных.
Хочется веб-морду с каким-то контролем, чтобы не писать его руками. Оповещения, может...

Поможет ли airflow или надо сесть и все-таки аккуратно мониторить скрипт?
источник

GG

George Gaál in Airflow
Alex Sinev
Здравствуйте, я не знаю эйрфлоу/luigi/prefect и спрошу, правильно ли я зашел. Есть такая задача - постоянно перегонять dbf-файлы (да, они существуют!), собирающиеся в некой директории.
Есть скрипт на Python, достаточно большой (предполагается, что на каждый dbf есть логика-transform), который забирает и гонит в postgres данные. К сожалению, скрипт периодически падает, или данные не доходят. Но контролируется это плохо. Предполается масштабирование в будущем, возможно другие форматы данных.
Хочется веб-морду с каким-то контролем, чтобы не писать его руками. Оповещения, может...

Поможет ли airflow или надо сесть и все-таки аккуратно мониторить скрипт?
помимо скрипта что-то еще планируется?
источник

GG

George Gaál in Airflow
ну, там 10-к других скриптов, причем в виде дерева взаимосвязей
источник

GG

George Gaál in Airflow
как часто надо перезапускать ? как часто поступают новые данные?
источник

CO

Chern Oleksander in Airflow
Alex Sinev
Здравствуйте, я не знаю эйрфлоу/luigi/prefect и спрошу, правильно ли я зашел. Есть такая задача - постоянно перегонять dbf-файлы (да, они существуют!), собирающиеся в некой директории.
Есть скрипт на Python, достаточно большой (предполагается, что на каждый dbf есть логика-transform), который забирает и гонит в postgres данные. К сожалению, скрипт периодически падает, или данные не доходят. Но контролируется это плохо. Предполается масштабирование в будущем, возможно другие форматы данных.
Хочется веб-морду с каким-то контролем, чтобы не писать его руками. Оповещения, может...

Поможет ли airflow или надо сесть и все-таки аккуратно мониторить скрипт?
Частично поможет, разобьете каждый файл на задачи и может будет немного легче.
Но лучше полностью поменять концепт
источник

GG

George Gaál in Airflow
вы обрабатываете пачку всю разом? или каждый инстанс скрипта свой файл? в параллель?
источник

GG

George Gaál in Airflow
вот ответьте на все эти вопросы - они помогут решить ЧТО ДЕЛАТЬ дальше
источник

AS

Alex Sinev in Airflow
параллели нет, последовательно обрабатываются файлы, в скрипте бьются на батчи. Батчами insert/update в базе.

10к скриптов вряд ли, но дополнительные данные в виде json/xml/csv в эту базу возможно будут заходить
источник