Телеграмм чат группы ruairflow страница 1183

Привет ребята, такой вопрос - как можно организовать CI/CD в Airflow? Опишу вкратце - у нас есть репозиторий где лежит наш проект с ДАГ - ами, есть Airflow поднятый на Кубернетесе, есть AWS EMR куда мы хотим слать наши спарк джобы по расписанию. Проблема в том что сейчас Airflow смотрит только на мастер ветку проекта и мне не понятно как настроить так чтобы он брал ДАГ-и из наших брэнчей и не все это не конфликтило между собой

источник

11:52пожаловаться #6

A

Abylai in Airflow

Может есть best practices или литература для чтения

источник

11:53пожаловаться #7

P

Pavel in Airflow

Abylai

Привет ребята, такой вопрос - как можно организовать CI/CD в Airflow? Опишу вкратце - у нас есть репозиторий где лежит наш проект с ДАГ - ами, есть Airflow поднятый на Кубернетесе, есть AWS EMR куда мы хотим слать наши спарк джобы по расписанию. Проблема в том что сейчас Airflow смотрит только на мастер ветку проекта и мне не понятно как настроить так чтобы он брал ДАГ-и из наших брэнчей и не все это не конфликтило между собой

триггерить деплой дага из конкнетной ветки руками

источник

11:54пожаловаться #8

ДН

Дмитрий Негреев... in Airflow

Abylai

Привет ребята, такой вопрос - как можно организовать CI/CD в Airflow? Опишу вкратце - у нас есть репозиторий где лежит наш проект с ДАГ - ами, есть Airflow поднятый на Кубернетесе, есть AWS EMR куда мы хотим слать наши спарк джобы по расписанию. Проблема в том что сейчас Airflow смотрит только на мастер ветку проекта и мне не понятно как настроить так чтобы он брал ДАГ-и из наших брэнчей и не все это не конфликтило между собой

Например можно ci/cd процессом разворачивать в кубе инстанс airflow под задачу, и дальше либо копирование в pv ваших дагов (если в кластере есть rwx), либо git-sync с фича ветки

источник

12:25пожаловаться #9

2020 November 06

マサ

マキシムサモイロフ... in Airflow

Abylai

Привет ребята, такой вопрос - как можно организовать CI/CD в Airflow? Опишу вкратце - у нас есть репозиторий где лежит наш проект с ДАГ - ами, есть Airflow поднятый на Кубернетесе, есть AWS EMR куда мы хотим слать наши спарк джобы по расписанию. Проблема в том что сейчас Airflow смотрит только на мастер ветку проекта и мне не понятно как настроить так чтобы он брал ДАГ-и из наших брэнчей и не все это не конфликтило между собой

Каждую ветку деплоить в отдельную папку с именем ветки. Приколы начнутся вместе с мержами, но это уже другая история

источник

10:51пожаловаться #10

A

Abylai in Airflow

@camoron @dmitrii_negreev @evervoid спасибо за ответы)

источник

12:28пожаловаться #11

k

kSandr in Airflow

マキシムサモイロフ

Каждую ветку деплоить в отдельную папку с именем ветки. Приколы начнутся вместе с мержами, но это уже другая история

История про кучу дагов с одинаковыми именами?

источник

13:04пожаловаться #12

ME

Max Efremov in Airflow

マキシムサモイロフ

Каждую ветку деплоить в отдельную папку с именем ветки. Приколы начнутся вместе с мержами, но это уже другая история

приколы будут, если бд общая на всё это)

источник

13:21пожаловаться #13

ME

Max Efremov in Airflow

надо тоже переключать, наверное. Но там бэкфилинг ещё...

источник

13:21пожаловаться #14

2020 November 07

C

Combot in Airflow

Добро пожаловать в самое дружелюбное комьюнити.

источник

12:47пожаловаться #15

2020 November 09

AB

Andrey Bodosov in Airflow

Всем привет. Подскажите как правильно реализовать такой функционал. Нужно каждые 15 минут копировать с фтп сервера самый свежий файл. Так как функционал сервера крайне урезан, приходиться забирать с сервера список файлов, сплитить строки и вычленять дату и время создания файла, и затем сравнивать эту дату с текущим значением даты и времени на сервере. Это сделано с помощью python оператора и спецефичного колбека для FTP.dir(). На фтп сервере определён конечный набор файлов по которым ротируется запись. Имя скачанного файла передаётся как xcom на вход следующего оператора. Как избежать повторной обработки одного и того же файла?

источник

16:00пожаловаться #16

ME

Max Efremov in Airflow

Можнг писать в переменные что уже обработано

источник

16:51пожаловаться #17

ME

Max Efremov in Airflow

Или в тот же xcom

источник

16:51пожаловаться #18

ME

Max Efremov in Airflow

А, ну или внешнее что-то

источник

16:51пожаловаться #19

SG

Sergey Gavrilov in Airflow

Andrey Bodosov

Всем привет. Подскажите как правильно реализовать такой функционал. Нужно каждые 15 минут копировать с фтп сервера самый свежий файл. Так как функционал сервера крайне урезан, приходиться забирать с сервера список файлов, сплитить строки и вычленять дату и время создания файла, и затем сравнивать эту дату с текущим значением даты и времени на сервере. Это сделано с помощью python оператора и спецефичного колбека для FTP.dir(). На фтп сервере определён конечный набор файлов по которым ротируется запись. Имя скачанного файла передаётся как xcom на вход следующего оператора. Как избежать повторной обработки одного и того же файла?

Ну для начала, привяжитесь к времени, за которое отрабатывает ДАГ, когда забираете файл.
А далее я бы предложил вам в отдельной БД-ке вести учёт файлов, которые были обработаны, если у вас нет возможности удалять "обработанные" данные, полученные из файлов. Если же есть, то дефолтное поведение — перезаписывать данные, ориентируясь на что-то уникальное. Это может быть имя файла, диапазон айдюков, дата etc

источник

16:53пожаловаться #20