Size: a a a

2020 November 12

ME

Max Efremov in Airflow
Andrey Bodosov
🤔 А для чего тогда выстраивать workflow?
запустить обработку за дату, чекнуть, что все данные естьч подождать недостающие, триггернуть etl, трингернуть базу для загрузки результатов, триггернуть проверку качества данных, отрапортавать об успехе
источник

ME

Max Efremov in Airflow
Viacheslav Nefedov
интересно, xcom вообще кто-то сейчас ещё использует?...
У меня там лежат даты для обработки, например)
источник

ME

Max Efremov in Airflow
В разных форматах, чтобы каждый раз не брать из даты запуска и не преобразовывать
источник

VS

Vladislav 👻 Shishkov... in Airflow
Viacheslav Nefedov
Если данных много, то xcom не спасет, а без данных это не etl и не elt
Что такое elt в курсе?
источник

ME

Max Efremov in Airflow
Viacheslav Nefedov
Просто для передачи данных между тасками всё равно нужна база данных или очередь
Или объектное хранилище)
источник

ME

Max Efremov in Airflow
Станислав Горчаков
Ну как бы можно сделать некоторую обработку через PythonOperator
Это какое-то извращение
источник

ME

Max Efremov in Airflow
Viacheslav Nefedov
Добавляем к airflow базу данных или шину. И получается пакетный etl
Может NiFi лучше взять?
источник

ME

Max Efremov in Airflow
Он вот как раз для ETL
источник

ME

Max Efremov in Airflow
Или StreamSets
источник

VN

Viacheslav Nefedov in Airflow
Vladislav 👻 Shishkov
Что такое elt в курсе?
сейчас уже все в курсе и что такое etl, и что такое elt, и что такое пакетная обработка и что такое стриминг
источник

VN

Viacheslav Nefedov in Airflow
Max Efremov
Может NiFi лучше взять?
NiFi это для потоковой обработки, раньше у нас так и было. Пакеты на airflow, потоки на NiFi. Потом смотрели spark structured streaming, сейчас уже потихоньку на flink переделываем
источник

СГ

Станислав Горчаков... in Airflow
Max Efremov
Это какое-то извращение
Почему извращение? По мне так лучше обработку на пандасе сделать и обернуть ее в функцию, чем 500+ процессоров в nifi делать
источник

K

Konstantin in Airflow
привет всем, подскажите пожалуйста, возсожно ли как-то перебороть боль у Airflow со скедулером.
Просто скедулер у Airflow на Celery часто зависал при 150 дагах с 10 тасками, а если что-то валилось, то без рук не поподнять все обратно
А сейчас перехожу на Кубер и там должно быть примерно 3000 дагов и по опыту я понимаю, что скедулер не вывезет такую нагрузку, тк он либо будет постоянно подвисать, либо даги будут очень медленно запускаться

Подскажете как с этим бороться?
источник

GB

Georgy Borodin in Airflow
Konstantin
привет всем, подскажите пожалуйста, возсожно ли как-то перебороть боль у Airflow со скедулером.
Просто скедулер у Airflow на Celery часто зависал при 150 дагах с 10 тасками, а если что-то валилось, то без рук не поподнять все обратно
А сейчас перехожу на Кубер и там должно быть примерно 3000 дагов и по опыту я понимаю, что скедулер не вывезет такую нагрузку, тк он либо будет постоянно подвисать, либо даги будут очень медленно запускаться

Подскажете как с этим бороться?
Ждать 2 эирфлоу: там будет возможность завести несколько шедулеров.
Я поставил шедулер перезапускаться каждые 2 часа (сейчас на Celery), и вроде фризов нет
источник

K

Konstantin in Airflow
Georgy Borodin
Ждать 2 эирфлоу: там будет возможность завести несколько шедулеров.
Я поставил шедулер перезапускаться каждые 2 часа (сейчас на Celery), и вроде фризов нет
Так а при перезапуске все что уже бежит или собирается на пару минут будет красным, да и airflow покажет, что скедулер пока не активен

Как-то на проще такое видеть каждые 2 часа слишком больно для сапорта 😂
источник

GB

Georgy Borodin in Airflow
Konstantin
Так а при перезапуске все что уже бежит или собирается на пару минут будет красным, да и airflow покажет, что скедулер пока не активен

Как-то на проще такое видеть каждые 2 часа слишком больно для сапорта 😂
Почему вдруг красным? Статусы тасков в бд, шедулер ни при чём
источник

GB

Georgy Borodin in Airflow
Но что шедулер лежит, покажет, это да
источник

K

Konstantin in Airflow
Georgy Borodin
Но что шедулер лежит, покажет, это да
Я вот про это)
источник

GB

Georgy Borodin in Airflow
Ну в этом нет ничего критического)
Раньше вообще ограничивали количество прогонов шедулера, он просто деградирует со временем
источник

K

Konstantin in Airflow
+ ведь если даг захочет запуститься по расписанию в то время пока шедулер будет просыпаться, то тоже может такс отвалиться разок
источник