Size: a a a

2020 November 03

s

satya in Airflow
How difficult is the setup saw its a docker compose file
источник

OI

Oleg Ilinsky in Airflow
satya
How difficult is the setup saw its a docker compose file
You can install it on virtual machine directly
https://airflow.apache.org/docs/stable/installation.html
источник

V

Vlad in Airflow
satya
How difficult is the setup saw its a docker compose file
Hi, I prepared this repo with airflow in docker. Each services work on docker. Webserver, scheduler, celery. https://github.com/v44p/airflow
источник

s

satya in Airflow
Vlad
Hi, I prepared this repo with airflow in docker. Each services work on docker. Webserver, scheduler, celery. https://github.com/v44p/airflow
Thanks will try this repo.
источник

V

Vlad in Airflow
So, let me know any suggestions or issue

Sorry for use English, I just started learning Russian and only learned the  alphabet jeje.
источник
2020 November 05

A

Abylai in Airflow
Привет ребята, такой вопрос - как можно организовать CI/CD в Airflow? Опишу вкратце - у нас есть репозиторий где лежит наш проект с ДАГ - ами, есть Airflow поднятый на Кубернетесе, есть AWS EMR куда мы хотим слать наши спарк джобы по расписанию. Проблема в том что сейчас Airflow смотрит только на мастер ветку проекта и мне не понятно как настроить так чтобы он брал ДАГ-и из наших брэнчей и не все это не конфликтило между собой
источник

A

Abylai in Airflow
Может есть best practices или литература для чтения
источник

P

Pavel in Airflow
Abylai
Привет ребята, такой вопрос - как можно организовать CI/CD в Airflow? Опишу вкратце - у нас есть репозиторий где лежит наш проект с ДАГ - ами, есть Airflow поднятый на Кубернетесе, есть AWS EMR куда мы хотим слать наши спарк джобы по расписанию. Проблема в том что сейчас Airflow смотрит только на мастер ветку проекта и мне не понятно как настроить так чтобы он брал ДАГ-и из наших брэнчей и не все это не конфликтило между собой
триггерить деплой дага из конкнетной ветки руками
источник

ДН

Дмитрий Негреев... in Airflow
Abylai
Привет ребята, такой вопрос - как можно организовать CI/CD в Airflow? Опишу вкратце - у нас есть репозиторий где лежит наш проект с ДАГ - ами, есть Airflow поднятый на Кубернетесе, есть AWS EMR куда мы хотим слать наши спарк джобы по расписанию. Проблема в том что сейчас Airflow смотрит только на мастер ветку проекта и мне не понятно как настроить так чтобы он брал ДАГ-и из наших брэнчей и не все это не конфликтило между собой
Например можно ci/cd процессом разворачивать в кубе инстанс airflow под задачу, и дальше либо копирование в pv ваших дагов (если в кластере есть rwx), либо git-sync с фича ветки
источник
2020 November 06

マサ

マキシム サモイロフ... in Airflow
Abylai
Привет ребята, такой вопрос - как можно организовать CI/CD в Airflow? Опишу вкратце - у нас есть репозиторий где лежит наш проект с ДАГ - ами, есть Airflow поднятый на Кубернетесе, есть AWS EMR куда мы хотим слать наши спарк джобы по расписанию. Проблема в том что сейчас Airflow смотрит только на мастер ветку проекта и мне не понятно как настроить так чтобы он брал ДАГ-и из наших брэнчей и не все это не конфликтило между собой
Каждую ветку деплоить в отдельную папку с именем ветки. Приколы начнутся вместе с мержами, но это уже другая история
источник

A

Abylai in Airflow
@camoron @dmitrii_negreev @evervoid спасибо за ответы)
источник

k

kSandr in Airflow
マキシム サモイロフ
Каждую ветку деплоить в отдельную папку с именем ветки. Приколы начнутся вместе с мержами, но это уже другая история
История про кучу дагов с одинаковыми именами?
источник

ME

Max Efremov in Airflow
マキシム サモイロフ
Каждую ветку деплоить в отдельную папку с именем ветки. Приколы начнутся вместе с мержами, но это уже другая история
приколы будут, если бд общая на всё это)
источник

ME

Max Efremov in Airflow
надо тоже переключать, наверное. Но там бэкфилинг ещё...
источник
2020 November 07

C

Combot in Airflow
Добро пожаловать в самое дружелюбное комьюнити.
источник
2020 November 09

AB

Andrey Bodosov in Airflow
Всем привет. Подскажите как правильно реализовать такой функционал. Нужно каждые 15 минут копировать с фтп сервера самый свежий файл. Так как функционал сервера крайне урезан, приходиться забирать с сервера список файлов, сплитить строки и вычленять дату и время создания файла, и затем сравнивать эту дату с текущим значением даты и времени на сервере. Это сделано с помощью python оператора и спецефичного колбека для FTP.dir(). На фтп сервере определён конечный набор файлов по которым ротируется запись. Имя скачанного файла передаётся как xcom на вход следующего оператора. Как избежать повторной обработки одного и того же файла?
источник

ME

Max Efremov in Airflow
Можнг писать в переменные что уже обработано
источник

ME

Max Efremov in Airflow
Или в тот же xcom
источник

ME

Max Efremov in Airflow
А, ну или внешнее что-то
источник

SG

Sergey Gavrilov in Airflow
Andrey Bodosov
Всем привет. Подскажите как правильно реализовать такой функционал. Нужно каждые 15 минут копировать с фтп сервера самый свежий файл. Так как функционал сервера крайне урезан, приходиться забирать с сервера список файлов, сплитить строки и вычленять дату и время создания файла, и затем сравнивать эту дату с текущим значением даты и времени на сервере. Это сделано с помощью python оператора и спецефичного колбека для FTP.dir(). На фтп сервере определён конечный набор файлов по которым ротируется запись. Имя скачанного файла передаётся как xcom на вход следующего оператора. Как избежать повторной обработки одного и того же файла?
Ну для начала, привяжитесь к времени, за которое отрабатывает ДАГ, когда забираете файл.
А далее я бы предложил вам в отдельной БД-ке вести учёт файлов, которые были обработаны, если у вас нет возможности удалять "обработанные" данные, полученные из файлов. Если же есть, то дефолтное поведение — перезаписывать данные, ориентируясь на что-то уникальное. Это может быть имя файла, диапазон айдюков, дата etc
источник