Size: a a a

2020 July 27

VN

Viacheslav Nefedov in Airflow
т.е. вы сейчас не пользуетесь гуём?
источник

DT

Dmitry Tataurov in Airflow
Префектовским нет, он появился в 0.10
источник

DT

Dmitry Tataurov in Airflow
Нам надо время сначала перевести все флоу с пентахо
источник

DT

Dmitry Tataurov in Airflow
Потом это по планам
источник

DT

Dmitry Tataurov in Airflow
Но мне очень нравится, что шедулер там код флоу не хранит. Его нужно только зарегистрировать и указать storage
источник

DT

Dmitry Tataurov in Airflow
Причем мы и сам код флоу оформили так, что и на даск кластере не надо распространять свои библиотеки. Те заворачиваем весь кастомный код как @task. Например, написал пару классов по работе с pg и он деплоится в даск на ходу
источник

DT

Dmitry Tataurov in Airflow
Кубернейтса нет. Там вроде как можно динамически кластер поднимать
источник

DT

Dmitry Tataurov in Airflow
Я нашёл ещё альтернативу префекту. Flyte
источник

DT

Dmitry Tataurov in Airflow
Парадигма очень похожа
источник

SG

Sergey Gavrilov in Airflow
А вы Спарк юзаете для оффлайн или онлайн перегона?
источник

DT

Dmitry Tataurov in Airflow
Если этот вопрос мне был, то нет. Сам я во всём этом новичок (плотно работал только с ssis и mssql), но мне было очень легко разобраться с питоновской экосистемой. Как раз весь код исполняется на dask, вся загрузка и организована на нем, удобная обвязка -  префект (напрямую через api даска никак не работаем)
источник

SG

Sergey Gavrilov in Airflow
Ну у вас же не Спарк, а Даск)
источник

DT

Dmitry Tataurov in Airflow
Sergey Gavrilov
Ну у вас же не Спарк, а Даск)
Да)
источник

SG

Sergey Gavrilov in Airflow
Viacheslav Nefedov
получается airflow + apache spark и т.д.
Это к вам, скорее
источник

DT

Dmitry Tataurov in Airflow
Viacheslav Nefedov
у него вроде планировались ограничения в бесплатной версии
Кстати, из всех ограничений на текущий момент только знаю, что флоу в облаке можно организовывать в проекты. В локальном шедулере пока нельзя ну и по мелочи недоработки типа url к шедулеру агенту нужно через переменную окружения прописать, что не задокументировано почему-то, а по дефолту был localhost. Где то недавно видел, что в облаке у них в планах тоже предоставить бесплатную подписку. У создателя проблема - он не знает как лучше монетизировать продукт и пока всё идёт к платной поддержке. Если найду линк, то скину.
источник

ДН

Дмитрий Негреев... in Airflow
подскажите, а jinja в airflow работает с {% ... %}?
хочу условие поставить
источник

ИХ

Ильяс Хакиев... in Airflow
Дмитрий Негреев
подскажите, а jinja в airflow работает с {% ... %}?
хочу условие поставить
да
источник

ДН

Дмитрий Негреев... in Airflow
источник

Н

Никита in Airflow
Привет, а у кого нибудь есть пример, как красиво паковать зависимости в sparkoperator?
источник

VN

Viacheslav Nefedov in Airflow
Sergey Gavrilov
Это к вам, скорее
Оффлан/онлайн перегон? У нас как сделано - airflow может запускать либо задачи на MS SQL, либо задачи на Clickhouse, либо задачи на сервере спарк. Спарк-задача начинается с загрузки откуда-то данных, а заканчивается тем, что он их куда-то кладёт. Т.е. ставим задачу MS SQL, например, выбрать данные и сложить у себя в отдельную таблицу. Следующий таск - спарк обрабатывает данные, закидывает на hdfs. Следующий таск - Clickhouse забирает данные с hdfs. Следующий - трём данные в hdfs.
источник