Size: a a a

2021 March 15

M

Mikhail in Airflow
потому что он должен запускаться когда данные "за период" готовы
источник

M

Mikhail in Airflow
"данные за 16 января" означает "данные за период с 16 января по 15 февраля"
источник

SK

Sergej Khakhulin in Airflow
а как нибудь это обойти есть способ?
источник

ME

Max Efremov in Airflow
Владимир
Всем привет! Кто может проконсультировать по построению Datalake системы на Airflow (и заодно пояснить чем он лучше Kubeflow и Luigi )
аирфлоу это не про пайплайны или ETL, это про оркестрацию процессами, как cron, только продвинутый
источник

В

Владимир in Airflow
Max Efremov
аирфлоу это не про пайплайны или ETL, это про оркестрацию процессами, как cron, только продвинутый
В Kubeflow вообще оркестрация в виде контейнеров (на каждую задачу отдельный контейнер)
источник

В

Владимир in Airflow
Хочется более развёрнутое понимание в чем разница
источник

ME

Max Efremov in Airflow
Владимир
В Kubeflow вообще оркестрация в виде контейнеров (на каждую задачу отдельный контейнер)
не, ну можно в аирфлоу заюзать кубернетис экзекьютор, будет по поду на каждую таску)
источник

ME

Max Efremov in Airflow
Но в самом аирфлоу данные обычно не гоняют
источник

ME

Max Efremov in Airflow
а дёргают из него сторонние системы - базы, спарк, ещё что-то
источник

ME

Max Efremov in Airflow
для пайплайнов - стримсеты, найфай ещё можно, например.
источник

В

Владимир in Airflow
Два последних не очень понял: скрипты dag -и написанные под airflow могут использовать orm и тд да
источник

В

Владимир in Airflow
Max Efremov
для пайплайнов - стримсеты, найфай ещё можно, например.
Что тут имеете в виду
источник

ME

Max Efremov in Airflow
Владимир
Что тут имеете в виду
Ну т.е. ETL на пайплайновых тулах: берём источник данных, считываем в систему данные, дальше применяем трансформации последовательно, выкладываем куда-то ещё.

ETL в airflow: проверяем сенсором, что есть данные в источнике, триггерим какую-то систему, которая считает, трансформирует и запишет данные на диск, триггерим базу, чтобы взяла в себя данные из локации выхода прошлой системы, рапортуем об успехе дага
источник

ME

Max Efremov in Airflow
Т.е. сам аирфлоу например не задизайнен, чтобы передавать данные между своими тасками, только метаинформацию.
источник

ME

Max Efremov in Airflow
Можно сделать, но это будет уже не эффективное применение инструмента
источник

В

Владимир in Airflow
А да, это само собой, между тасками передача не нужна
источник

В

Владимир in Airflow
А чем лучше airflow чем Luigi кроме того что есть свой планировщик вместо крона ?
источник

В

Владимир in Airflow
Новый GUI
источник

M

Mikhail in Airflow
Sergej Khakhulin
а как нибудь это обойти есть способ?
зачем?
источник

ME

Max Efremov in Airflow
Владимир
А чем лучше airflow чем Luigi кроме того что есть свой планировщик вместо крона ?
мне кажется, луиджи больше как ETL - взяли, преобразовали, положили. А аирфлоу про управление всем и отслеживание результатов. Плюс планировщик с бэкфилингом и прочим.
источник