Телеграмм чат группы ruairflow страница 1242

есть какая то существенная разница в таких вариантах исполнения Расписание одинаковое:
1 Запихнуть несколько ветвей в 1 даг
2 Развести ветки по отдельным дагам и сделать их более простыми

источник

15:02пожаловаться #11

IK

Ivan Kizimenko in Airflow

в плане нагрузки на сервак

источник

15:03пожаловаться #12

GB

Georgy Borodin in Airflow

Ivan Kizimenko

есть какая то существенная разница в таких вариантах исполнения Расписание одинаковое:
1 Запихнуть несколько ветвей в 1 даг
2 Развести ветки по отдельным дагам и сделать их более простыми

На моем опыте лучше разделять на отдельные даги (но у меня были десятки тысяч тасков)

источник

15:07пожаловаться #13

IK

Ivan Kizimenko in Airflow

интересно что это за процессы такие с десятками тысяч тасков =)

источник

15:08пожаловаться #14

VS

Vladislav 👻 Shishkov... in Airflow

Ivan Kizimenko

есть какая то существенная разница в таких вариантах исполнения Расписание одинаковое:
1 Запихнуть несколько ветвей в 1 даг
2 Развести ветки по отдельным дагам и сделать их более простыми

как минимум есть две отдельные опции для шедулера по построению очереди: для тасков в рамках дага и для дагов

источник

15:09пожаловаться #15

GB

Georgy Borodin in Airflow

Ivan Kizimenko

интересно что это за процессы такие с десятками тысяч тасков =)

Нужно было ETL-ить данные от внешнего API для множества сущностей, делать это надо было быстро, чтобы всё вертелось на воркерах.
Самый первый даг – десятки тысяч тасков, был монструозный, в рамках каждого рана проверялись данные за все дни, если за день не было – грузили. Это очень хреновый подход))))
Сейчас отдельные даги на эти сущности и немного шаманства с запуском scheduled__* ранов за недостающие даты

источник

15:11пожаловаться #16

VS

Vladislav 👻 Shishkov... in Airflow

И если собирать таски в одном даге, то вероятность нарываться на большие очереди на шедулере

источник

15:11пожаловаться #17

VS

Vladislav 👻 Shishkov... in Airflow

вот пример, как это может выглядить +-

источник

15:12пожаловаться #18

IK

Ivan Kizimenko in Airflow

Спасибо. Буду разделять

источник

15:13пожаловаться #19

SZ

Sergey Zhuravlev in Airflow

Всем привет. Подскажите ответы на три вопроса, хотя бы ссылками на доки или Ютуб:
1. Можно ли как то интерактивно взаимодействовать с запущенным вручную дагом кроме как переменными из админки? К примеру указать имя БД и таблицы для текущего выполнения?
2. Я где то читал, что есть готовый оператор или хук для запуска задачи в Talent ETL из airflow, но теперь не могу найти, есть ли тут кто то, кто в курсе?
3. Возможно вопрос не сюда, но каким образом лучше переливать данные из mongo в реляционную БД, при условии, что один файл в mongo около 10 Гб может быть, а перелить надо несколько таких файлов? Придется где то приземлять около airflow в промежуточную базу? На практике пробовал через pandas, но на 10-м файле может упасть так как очистка памяти в питоне как то не полностью все вычищает после закрытия файла и уничтожения датафрейма. gc.collect тоже не помогает.

Спасибо

источник

20:44пожаловаться #20