Size: a a a

2020 November 30

IL

Ilya Lozhkin in Airflow
AIRFLOW__CORE__DAGBAG_IMPORT_TIMEOUT=60 вроде не влияет на это
источник
2020 December 01

SS

Sergey Sazhin in Airflow
Друзья, а к предыдущему вопросу про "30 лямов строк". Можно ли как-то сделать, чтобы при такой методике, если даги выполняются не последовательно в связи с тем, что время пришло, а заполняют исторические данные ... чтобы даги работали последовательно. Т.е. например сначала он выполнил за 01.11 потом за 02.11 и т.д. Потому-что получается что он паралельно всех их выполняет у меня и это ломает логику.
источник

А

Антон in Airflow
Всем привет! Ребзя, возвращаюсь к своему вопросу про старт вебсервера. Теперь такой вопрос:
с чем может быть связанно то, что airflow со стандартными настройками стартует прекрасно, но когда прописываешь ему postgres для бэкенда, он начинает ну ОЧЕНЬ туго заводится?
источник

GB

Georgy Borodin in Airflow
Антон
Всем привет! Ребзя, возвращаюсь к своему вопросу про старт вебсервера. Теперь такой вопрос:
с чем может быть связанно то, что airflow со стандартными настройками стартует прекрасно, но когда прописываешь ему postgres для бэкенда, он начинает ну ОЧЕНЬ туго заводится?
А постгрес на том же хосте?
источник

А

Антон in Airflow
нет
источник

VS

Vladislav 👻 Shishkov... in Airflow
Второй и последующие запуски делали?
источник

VS

Vladislav 👻 Shishkov... in Airflow
Какие настройки пулов для подключения к базе?
источник

GB

Georgy Borodin in Airflow
Sergey Sazhin
Друзья, а к предыдущему вопросу про "30 лямов строк". Можно ли как-то сделать, чтобы при такой методике, если даги выполняются не последовательно в связи с тем, что время пришло, а заполняют исторические данные ... чтобы даги работали последовательно. Т.е. например сначала он выполнил за 01.11 потом за 02.11 и т.д. Потому-что получается что он паралельно всех их выполняет у меня и это ломает логику.
dag = DAG(max_active_runs = 1...)
catchup с самого раннего начинает вроде
источник

А

Антон in Airflow
сколько я только запусков не делал.. заметил еще следующее поведение: локально инит проходит секунд за 20, а на сервере минут за 7
источник

SS

Sergey Sazhin in Airflow
Georgy Borodin
dag = DAG(max_active_runs = 1...)
catchup с самого раннего начинает вроде
max_active_runs делает работу дагов так-же паралеьно, но не в 20 условных потоков, а в 1. т.е. он делает не [clear,clear,clear,...] а делает [clear],[clear],[clear]
источник

А

Антон in Airflow
Vladislav 👻 Shishkov
Какие настройки пулов для подключения к базе?
sql_alchemy_pool_size = 5
источник

VS

Vladislav 👻 Shishkov... in Airflow
Нужны логи
источник

GB

Georgy Borodin in Airflow
Sergey Sazhin
max_active_runs делает работу дагов так-же паралеьно, но не в 20 условных потоков, а в 1. т.е. он делает не [clear,clear,clear,...] а делает [clear],[clear],[clear]
Почему вдруг параллельно?
max_active_runs – сколько DAG Run-ов может работать единовременно. Если значение – 1, то и даги будут последовательно работать
источник

GB

Georgy Borodin in Airflow
Sergey Sazhin
max_active_runs делает работу дагов так-же паралеьно, но не в 20 условных потоков, а в 1. т.е. он делает не [clear,clear,clear,...] а делает [clear],[clear],[clear]
источник

А

Антон in Airflow
Vladislav 👻 Shishkov
Нужны логи
в логах ничего необычного, изучил вдоль и поперек
источник

GB

Georgy Borodin in Airflow
Антон
в логах ничего необычного, изучил вдоль и поперек
источник

SS

Sergey Sazhin in Airflow
потому-что я пробовал на практике :(. catchup на сколько я понимаю, он определяет тянуть ли исторические данные и не более того. Он берет создает условно 30 заданий по 1 на каждый день. И начинает паралельно по одному выполнять сначала все первые даги, потом все вторые и т.д.
источник

GB

Georgy Borodin in Airflow
Sergey Sazhin
потому-что я пробовал на практике :(. catchup на сколько я понимаю, он определяет тянуть ли исторические данные и не более того. Он берет создает условно 30 заданий по 1 на каждый день. И начинает паралельно по одному выполнять сначала все первые даги, потом все вторые и т.д.
Ну я ж прям со скрином скинул из их доки, max_active_runs ограничивает именно даг раны. Можешь путать со схожим параметром для тасков
источник

GB

Georgy Borodin in Airflow
Sergey Sazhin
потому-что я пробовал на практике :(. catchup на сколько я понимаю, он определяет тянуть ли исторические данные и не более того. Он берет создает условно 30 заданий по 1 на каждый день. И начинает паралельно по одному выполнять сначала все первые даги, потом все вторые и т.д.
https://github.com/apache/airflow/blob/master/airflow/jobs/backfill_job.py

286 строчка (и обращения к методу, соответственно)
источник

SS

Sergey Sazhin in Airflow
Georgy Borodin
Ну я ж прям со скрином скинул из их доки, max_active_runs ограничивает именно даг раны. Можешь путать со схожим параметром для тасков
Вот как себя ведет max_active_runs. И там больше одного дага внутри :)
источник