Size: a a a

2020 November 12

K

Konstantin in Airflow
Georgy Borodin
А чисто пальцем в небо: сабдагов там нет?
нет)
источник

GB

Georgy Borodin in Airflow
Konstantin
нет)
Это хорошо)
источник

K

Konstantin in Airflow
часть дагов работают как скедулеры других тул, часть дагов гоняют спарк минут по 15-80
источник

K

Konstantin in Airflow
и больше всего проблем с первой половиной, тк если скедулеры быстро отрабатывают и иногда совпадает, что их много в один момент, то как обычно скедулер виснет и надо перезапускать его
источник

GB

Georgy Borodin in Airflow
Konstantin
и больше всего проблем с первой половиной, тк если скедулеры быстро отрабатывают и иногда совпадает, что их много в один момент, то как обычно скедулер виснет и надо перезапускать его
В логи не падало про UniqueConstraintViolation?
источник

K

Konstantin in Airflow
я уже думаю запилить своего шуделрно подобного монстра, который с базой тоже сможет общаться и таски шедулить
источник

GB

Georgy Borodin in Airflow
Кстати, тоже пальцем в небо: а база не sqlite?
источник

K

Konstantin in Airflow
Georgy Borodin
В логи не падало про UniqueConstraintViolation?
неа
источник

K

Konstantin in Airflow
Georgy Borodin
Кстати, тоже пальцем в небо: а база не sqlite?
не, постгрес или mysql
источник

GB

Georgy Borodin in Airflow
Про мускул видел нехорошие вещи, но сейчас подтвердить источником не могу
источник

K

Konstantin in Airflow
есть один единственный спамящий ворнинг из-за оператора
DeprecationWarning: Importing 'BashOperator' directly from 'airflow.operators' has been deprecated. Please impo[24/1919]
airflow.operators.[operator_module]' instead. Support for direct imports will be dropped entirely in Airflow 2.0.
webserver_1  |   DeprecationWarning)
источник

K

Konstantin in Airflow
но если много чего запустилось, то может вообще не быть логов
источник

VS

Vladislav 👻 Shishkov... in Airflow
Konstantin
+ еще так тюнили
AIRFLOW__CORE__PARALLELISM=2000
AIRFLOW__CELERY__WORKER_CONCURRENCY=500
AIRFLOW__SCHEDULER__MAX_THREADS=16
AIRFLOW__CELERY__WORKER_AUTOSCZLE=1000,500
AIRFLOW_CORE_NON_POOLED_TASK_SLOT_COUNT=2000
2000? о_0 сколько у вас воркеров, какой брокер и какие лимиты на базе для бека?
источник

MH

Marko Herkalyuk in Airflow
Konstantin
привет всем, подскажите пожалуйста, возсожно ли как-то перебороть боль у Airflow со скедулером.
Просто скедулер у Airflow на Celery часто зависал при 150 дагах с 10 тасками, а если что-то валилось, то без рук не поподнять все обратно
А сейчас перехожу на Кубер и там должно быть примерно 3000 дагов и по опыту я понимаю, что скедулер не вывезет такую нагрузку, тк он либо будет постоянно подвисать, либо даги будут очень медленно запускаться

Подскажете как с этим бороться?
Перейти на prefect
источник

K

Konstantin in Airflow
Vladislav 👻 Shishkov
2000? о_0 сколько у вас воркеров, какой брокер и какие лимиты на базе для бека?
в итоге 5 оставили, при тестах до 20 доходило
Rabbit

про базы много инфы нет, но запрашивал постгрю 4 ядра и 16 гигов оперы
источник

K

Konstantin in Airflow
Marko Herkalyuk
Перейти на prefect
нельзя :/
источник

VS

Vladislav 👻 Shishkov... in Airflow
Konstantin
в итоге 5 оставили, при тестах до 20 доходило
Rabbit

про базы много инфы нет, но запрашивал постгрю 4 ядра и 16 гигов оперы
5? Щ_Щ
источник

VS

Vladislav 👻 Shishkov... in Airflow
из крайности в крайность прям...
ставьте sum(2*core_on_worker)
источник

VS

Vladislav 👻 Shishkov... in Airflow
AIRFLOW__CELERY__WORKER_CONCURRENCY ставьте как AIRFLOW__CORE__PARALLELISM/count_workers
источник

VS

Vladislav 👻 Shishkov... in Airflow
Про AIRFLOW__SCHEDULER__MAX_THREADS верно написали выше, ставьте максимум от количества ядер, минус один по желанию
источник