Size: a a a

2021 January 27

IK

Ivan Kizimenko in Airflow
Но в целом да согласен.
источник

ME

Max Efremov in Airflow
источник

ME

Max Efremov in Airflow
а не 48 Кб?
источник

IK

Ivan Kizimenko in Airflow
Если посгресс то до 1 гига
источник

IK

Ivan Kizimenko in Airflow
Но все равно это как то дико, этож все потом висеть в бд будет
источник

ME

Max Efremov in Airflow
Ну да, выглядит как костыль)
источник

ME

Max Efremov in Airflow
Оно же для шаред стейт и обмена сообщенияии
источник

ME

Max Efremov in Airflow
Да и сам airflow не для etl, а для оркестрации
источник

GB

Georgy Borodin in Airflow
Ivan Kizimenko
Но все равно это как то дико, этож все потом висеть в бд будет
А что дикого? Стейты тасок там висят же, метадб не священная корова
источник

IK

Ivan Kizimenko in Airflow
Georgy Borodin
А что дикого? Стейты тасок там висят же, метадб не священная корова
Ну если по гигу туда закидывать регулярно и хранить это еще без надобности
источник

GB

Georgy Borodin in Airflow
Ivan Kizimenko
Ну если по гигу туда закидывать регулярно и хранить это еще без надобности
Ну база будет расти неумолимо в любом случае. Есть довольно известная репка с maintenance dag-ами (с телефона не стану искать, пишу в чатик под столом), у себя мы чистим всё старше месяца
источник
2021 January 28

АМ

Алексей Миг... in Airflow
Александр
Всем доброго времени суток. Я сейчас начал изучать airflow, можете, плиз, подсказать, как правильно создать dag, который будет забирать данные из одной БД в другую. Сейчас у меня это все прописано в одной функции и соответственно один таск, в котором я подключаюсь к одной БД, сохраняю в pandas и передаю это дело в другую БД. Я бы хотел это реализовать двумя тасками, первый который забирает данные, а второй который сохраняет данные. Но никак не пойму как передать данные из одной функции в другую.
это "проблема" всех начинающих изучать.
не надо огород городить - все в одном таске пусть будет
источник

Н

Николай in Airflow
Александр
Всем доброго времени суток. Я сейчас начал изучать airflow, можете, плиз, подсказать, как правильно создать dag, который будет забирать данные из одной БД в другую. Сейчас у меня это все прописано в одной функции и соответственно один таск, в котором я подключаюсь к одной БД, сохраняю в pandas и передаю это дело в другую БД. Я бы хотел это реализовать двумя тасками, первый который забирает данные, а второй который сохраняет данные. Но никак не пойму как передать данные из одной функции в другую.
Александр, у airflow нет dataflow. механизма, выражаясь терминами майкрософт: тут действительно так, в 1 операторе всё делается. Другой вопрос - вы как кладёте данные? сразу в модель хранилища или через буферный слой? для этой группы подобные темы в целом оффтоп - так что лучше пишите в личку
источник

P

Pavel in Airflow
Александр
чтобы можно было разделить на шаги, так вроде проще отлавливать исключения, т.е. если какая-то одна из бд не отвечает, то сразу видно по таскам какая
На самом деле, причина декомпозиции etl процессов на несколько тасок другая.
Если у вас первая таска получает данные очень долго, например из какой-ниьудь внешней апишки, и если к тому же, эта апишка имеет лимиты на обращение к ней, то, разбив таску на 2, вы делаете процесс более стабильным. Первая таска получает данные, сохраняет их в надежное и стабильное хранилище (s3, hdfs, ...), а вторая таска читает данные из хранилища. Однако, в таком случае вам надо обеспечить это самое хранилище.
источник

EM

Evgeniy Muravev in Airflow
Всем привет! Помогите, пожалуйста, решить проблему . Для изучения инструмента ставим себе airflow 2.0 на ms sql server, в момент инициирования базы (db init) падает ошибка, что в таблице dag уже создана колонка с типом TIMESTAMP, поэтому остальные нужные колонки уже не создаются. Дело в том, что в ms sql действительно допускается только одна колонка с таким типом. Вопрос: можно ли изменить где-то в моделях тип данных для создаваемых колонок?
источник

VS

Vladislav 👻 Shishkov... in Airflow
ставьте на постгрес/мускл/марию
источник

VS

Vladislav 👻 Shishkov... in Airflow
это рекомендация airflow
источник

EM

Evgeniy Muravev in Airflow
Рекомендация хорошая, но пока не выбираем субд, боюсь представить, сколько у нас будет согласовываться такое. Есть возможность решить проблему, не переезжая на другие рельсы?
источник

SG

Sergey Gavrilov in Airflow
Evgeniy Muravev
Рекомендация хорошая, но пока не выбираем субд, боюсь представить, сколько у нас будет согласовываться такое. Есть возможность решить проблему, не переезжая на другие рельсы?
Да. Попробуйте форкнуть исходный код Аерфлоу и поменять там тип данных в моделях)
источник

MY

Maxim Yastremsky in Airflow
Evgeniy Muravev
Рекомендация хорошая, но пока не выбираем субд, боюсь представить, сколько у нас будет согласовываться такое. Есть возможность решить проблему, не переезжая на другие рельсы?
О да. Нам чуть ли не полгода согласовывали/выбирали 💁‍♂
источник