Size: a a a

2020 August 05

BB

Bral Bral in Airflow
Mikhail
если этот функционал не нужен, зачем вообще airflow? напишите скрипт на питоне и выполняйте через cron
Ага, и масштабировать мне тоже все руками через селери? Тут все из коробки и все устраивает , за исключением этого нюанса .
источник

M

Mikhail in Airflow
Dmitry Samoylov
Если у тебя все выполняется на одной машине - можешь теоретически передать ссылку на блок памяти и ходить по ней.
тут у всех так на работе)
источник

M

Mikhail in Airflow
Dmitry Samoylov
Если у тебя все выполняется на одной машине - можешь теоретически передать ссылку на блок памяти и ходить по ней.
память очистится гарбыч коллектером после выполнения дагфайла
источник

M

Mikhail in Airflow
вс
источник

BB

Bral Bral in Airflow
Mikhail
память очистится гарбыч коллектером после выполнения дагфайла
У меня в рамках одного дага все.
источник

DS

Dmitry Samoylov in Airflow
Bral Bral
Ага, и масштабировать мне тоже все руками через селери? Тут все из коробки и все устраивает , за исключением этого нюанса .
как раз таки масштабирование за счет таких нюансов и можно нормально сделать
источник

M

Mikhail in Airflow
Bral Bral
У меня в рамках одного дага все.
и что?
источник

M

Mikhail in Airflow
дайгфайл выполняется в каждом цикле шедулера
источник

BB

Bral Bral in Airflow
Mikhail
и что?
>> память очистится после выполнения дагфайла
источник

M

Mikhail in Airflow
Obj = etl(). В init этого класса есть self.dataframe , который изначально пустой.
у вас init выполняется перед запуском каждой таски
источник

M

Mikhail in Airflow
таски видят не один и тот же объект
источник

M

Mikhail in Airflow
если утрированно, то airflow запускает такой скрипт:
источник

BB

Bral Bral in Airflow
Mikhail
таски видят не один и тот же объект
Ох, и это никак не обойти ?
источник

M

Mikhail in Airflow
from dags.your_dag import task

task.execute()
источник

M

Mikhail in Airflow
импорт каждый раз происходит
источник

M

Mikhail in Airflow
Bral Bral
Ох, и это никак не обойти ?
записыванием промежуточного результата в какой-то persistent storage
источник

M

Mikhail in Airflow
обычно табличные данные пишут в БД, либо в файл на S3, либо на диск, если всё на одной машине
источник

BB

Bral Bral in Airflow
Mikhail
записыванием промежуточного результата в какой-то persistent storage
Нет, нет, я имел ввиду без этого. Вообще не совсем прозрачно, особенно нахождение операторов в одном .py файле и тут внезапно память у них не расширенная .
источник

M

Mikhail in Airflow
ну как она может быть общая, если таски выполняются в разных процессах, либо вообще на разных компьютерах
источник

M

Mikhail in Airflow
Bral Bral
Нет, нет, я имел ввиду без этого. Вообще не совсем прозрачно, особенно нахождение операторов в одном .py файле и тут внезапно память у них не расширенная .
непрозрачно, потому что вы все еще мыслите питон-скриптами, которые запускаются и работают какое-то время
шедулер не так работает
источник