Size: a a a

2021 February 03

PA

Panchenko Andrey in Airflow
у меня почему-то в случае с бигквери опертором тайм аут между тасками внутри одной даги 3 минуты, и я не пойму в чем может быть дело
источник

GB

Georgy Borodin in Airflow
Всем привет, одна таска упорно вылетает с сообщением Task exited with return code Negsignal.SIGKILL
Воркеры крутятся в сервисах AWS ECS (Fargate Spot) вручную перезапустил таску, последил за ECS таском – он не умирает, всё с ним хорошо, памяти съедено ~58% в пике и CPU ~50%. Что может быть причиной? В логах есть варнинг от пандаса, но он вроде ничего не делает

В логах таски:
[2021-02-03 14:35:42,142] {logging_mixin.py:112} WARNING - /opt/airflow/dags/<dag_file>.py:56: DtypeWarning: Columns (14,16,18,20,24,25,28,79) have mixed types.Specify dtype option on import or set low_memory=False.
[2021-02-03 14:35:46,596] {local_task_job.py:102} INFO - Task exited with return code Negsignal.SIGKILL

В логах шедулера написано следующее:
[2021-02-03 14:36:27,849] {scheduler_job.py:1314} INFO - Executor reports execution of <task_name> execution_date=2021-02-02 01:00:00+00:00 exited with status success for try_number 4
источник

М

Михаил in Airflow
Дмитрий Негреев
{{ dag_run.conf[...] }} ?
Спасибо. {{ dag_run.conf[...] }} позволяет добраться до желаемого
источник

M

Mark in Airflow
Georgy Borodin
Всем привет, одна таска упорно вылетает с сообщением Task exited with return code Negsignal.SIGKILL
Воркеры крутятся в сервисах AWS ECS (Fargate Spot) вручную перезапустил таску, последил за ECS таском – он не умирает, всё с ним хорошо, памяти съедено ~58% в пике и CPU ~50%. Что может быть причиной? В логах есть варнинг от пандаса, но он вроде ничего не делает

В логах таски:
[2021-02-03 14:35:42,142] {logging_mixin.py:112} WARNING - /opt/airflow/dags/<dag_file>.py:56: DtypeWarning: Columns (14,16,18,20,24,25,28,79) have mixed types.Specify dtype option on import or set low_memory=False.
[2021-02-03 14:35:46,596] {local_task_job.py:102} INFO - Task exited with return code Negsignal.SIGKILL

В логах шедулера написано следующее:
[2021-02-03 14:36:27,849] {scheduler_job.py:1314} INFO - Executor reports execution of <task_name> execution_date=2021-02-02 01:00:00+00:00 exited with status success for try_number 4
а какой код возвращает таска в ECS?
источник

GB

Georgy Borodin in Airflow
Mark
а какой код возвращает таска в ECS?
Она продолжает работать, пока её наш сервис для скалирования не грохнет
А в логах у неё сообщение, на деле таска в UI красная и задание своё не выполнила

[2021-02-03 14:35:47,421: INFO/ForkPoolWorker-1] Task airflow.executors.celery_executor.execute_command[3c58ecaf-3543-4d46-b44d-135cc129c87b] succeeded in 1156.64131476s: None
источник
2021 February 04

AP

Anton Patsev in Airflow
Подскажите, пожалуйста, у кого airfow в kubernetes, у вас docker образы на всех нодах одинаковые или разные? заранее спасибо

Например отдельный контейнер для airflow webserver, отдельные контейнеры для worker

Заранее спасибо!
источник

ST

Sergey Trapeznikov in Airflow
Anton Patsev
Подскажите, пожалуйста, у кого airfow в kubernetes, у вас docker образы на всех нодах одинаковые или разные? заранее спасибо

Например отдельный контейнер для airflow webserver, отдельные контейнеры для worker

Заранее спасибо!
докер образы чего
источник

AP

Anton Patsev in Airflow
Например отдельный контейнер для airflow webserver, отдельные контейнеры для worker
источник

VS

Vladislav 👻 Shishkov... in Airflow
А смысл, если они отличаются только строкой запуска?
источник

OI

Oleg Ilinsky in Airflow
Anton Patsev
Подскажите, пожалуйста, у кого airfow в kubernetes, у вас docker образы на всех нодах одинаковые или разные? заранее спасибо

Например отдельный контейнер для airflow webserver, отдельные контейнеры для worker

Заранее спасибо!
одинаковые
у нас даже 1 под и внутри него контейнеры: webserver и scheduler
отличаются только строкой запуска
источник

P

Pavel in Airflow
Anton Patsev
Подскажите, пожалуйста, у кого airfow в kubernetes, у вас docker образы на всех нодах одинаковые или разные? заранее спасибо

Например отдельный контейнер для airflow webserver, отдельные контейнеры для worker

Заранее спасибо!
Одинаковые конечно
источник

VV

Valery Vybornov in Airflow
Vladislav 👻 Shishkov
А смысл, если они отличаются только строкой запуска?
Если worker надо кастомизировать, например, доп. библиотеки поставить - должны ли все эти библиотеки быть и на webserver'е и на scheduler'e?
источник

VS

Vladislav 👻 Shishkov... in Airflow
Да
источник

VS

Vladislav 👻 Shishkov... in Airflow
Первичная инициализация происходит в шедулере
источник

VS

Vladislav 👻 Shishkov... in Airflow
После идет в вебсервере и только потом уже в воркере
источник

VV

Valery Vybornov in Airflow
Vladislav 👻 Shishkov
После идет в вебсервере и только потом уже в воркере
Ok, понятно, спасибо
источник

JZ

Julia Zhosan in Airflow
Всем доброго дня. Я недавно начала работать с Airflow и у меня возник вопрос по поводу порядка выполнения дагов.
У меня достаточно много дагов, какие-то из них выполняются daily, какие-то hourly, какие-то каждые 3 часа. Даги не имеют взаимосвязей, subdags нигде не прописано.
Задача была в том, чтобы наборы дагов шли выполняться друг за другом. Я почитала про pools и подумала, что это можно решить так: я объединила даги в 8 пулов (в одном пуле даги имеющие одинаковое расписание) и каждому дагу в пуле присвоила свой priority_weight (этот параметр разный для всех пулов). Я ожидала, что при первом запуске дагов (в 00.00) сначала начнут выполняться даги первого пула (у которых priority_weight=100), потом второго пула (у которых priority_weight=95) и так далее до последнего. Но по факту, судя по Start date в списке Jobs, даги не соблюдают последовательность выполнения и вообще выполняются как-то рандомно.
Подскажите пожалуйста, в чем проблема моего подхода? Возможно я целом неверно поняла понятие пула и весов. И есть ли какое-то альтернативное решение такой проблемы?
источник

EK

Egor Klimov in Airflow
Vladislav 👻 Shishkov
Первичная инициализация происходит в шедулере
А можете подсказать где можно почитать об этом? В доке я кажется инфы про инициализацию дага и т.п. не видел, может, конечно, криво смотрел
источник

OI

Oleg Ilinsky in Airflow
Julia Zhosan
Всем доброго дня. Я недавно начала работать с Airflow и у меня возник вопрос по поводу порядка выполнения дагов.
У меня достаточно много дагов, какие-то из них выполняются daily, какие-то hourly, какие-то каждые 3 часа. Даги не имеют взаимосвязей, subdags нигде не прописано.
Задача была в том, чтобы наборы дагов шли выполняться друг за другом. Я почитала про pools и подумала, что это можно решить так: я объединила даги в 8 пулов (в одном пуле даги имеющие одинаковое расписание) и каждому дагу в пуле присвоила свой priority_weight (этот параметр разный для всех пулов). Я ожидала, что при первом запуске дагов (в 00.00) сначала начнут выполняться даги первого пула (у которых priority_weight=100), потом второго пула (у которых priority_weight=95) и так далее до последнего. Но по факту, судя по Start date в списке Jobs, даги не соблюдают последовательность выполнения и вообще выполняются как-то рандомно.
Подскажите пожалуйста, в чем проблема моего подхода? Возможно я целом неверно поняла понятие пула и весов. И есть ли какое-то альтернативное решение такой проблемы?
а какой weight_rule стоит?
источник

JZ

Julia Zhosan in Airflow
Oleg Ilinsky
а какой weight_rule стоит?
никакого, т.к. я не знаю что это и куда его ставить)
источник