Size: a a a

2020 August 05

M

Mikhail in Airflow
короче, без этого — никак, промежуточный результат придется куда-то записать. если он небольшой, то в xcom, если большой, то на диск
я лично считаю икскомы антипаттерном и пишу на диск
источник

M

Mikhail in Airflow
ну на самом деле в базу, потому что там как раз разные машины
источник

BB

Bral Bral in Airflow
Mikhail
ну как она может быть общая, если таски выполняются в разных процессах, либо вообще на разных компьютерах
Я вас понял. Ошибка была в том, что изначально предполагалось при использовании параметров concurency в 1 и max_active run все это будет происходить вместе . А тут выходит для шедулера каждый таск отдельная задача .
источник

M

Mikhail in Airflow
да, всё так
выхода может быть два:
- объединить таски в одну — тогда память точно будет общая
- писать промежуточный результат куда-то наружу
источник

M

Mikhail in Airflow
судя по описанию, вам ближе первый вариант будет
источник

M

Mikhail in Airflow
так как это просто две последовательные задачи
источник

BB

Bral Bral in Airflow
Mikhail
да, всё так
выхода может быть два:
- объединить таски в одну — тогда память точно будет общая
- писать промежуточный результат куда-то наружу
Сначало было как раз первый вариант, но кода было одного и того же очень много. Плюс на карте не все наглядно . Хотелось бы разбить на мелкие подзадачки , которые генерировать динамически .
источник

BB

Bral Bral in Airflow
Спасибо, тогда буду думать в сторону кафки, как изначально и предполагалось .
источник

ME

Max Efremov in Airflow
Mikhail
обычно табличные данные пишут в БД, либо в файл на S3, либо на диск, если всё на одной машине
Какой-то map-reduce пооучается)
источник

ME

Max Efremov in Airflow
Сделали операцию, скинули на диск)
источник

L

Lexis in Airflow
Анастасия
Я хотела переопределять только схемы и таблицы)

Ну, то есть это по сути универсальный даг, если в него подставить нужные параметры, потому что все выглядит как:
Удали это
Добавь это
Теперь переложи это

И вот эти "это" хочется переопределять

Например, подкладывать ссылки на разные фалы с параметрами
Что вы описываете это не параметры дага, а очень похоже на Operator. Напишите свой оператор с нужными параметрами.
источник
2020 August 06

A

Aleksey in Airflow
Всем привет
Настраиваю connection к Presto, с SSL.
Параметры SSL прописал через Extra
{
 "SSLTrustStorePath": "/usr/local/airflow/ks/key.jks",
 "SSLTrustStorePassword": "pwd_",
 "SSL": true
}
При проверке через Ad Hoc Query получаю cannot use authentication with HTTP

Подскажите, пожалуйста, что делаю не так?
Спасибо
источник

ME

Max Efremov in Airflow
Подскажите, есть даги, который запускаются ежемесячно, "start_date": datetime(2020, 1, 1),
Так последний прогон у них почему-то за 7 месяц только был, а за август никак не хотят запускаться, хотя 1 августа уже прошло. Рядом есть ежедневные, они норм отрабаотали
источник

ME

Max Efremov in Airflow
Первые два - ежемесячные, ниже - ежедневный
источник

YV

Yuliya Volkova in Airflow
Max Efremov
Первые два - ежемесячные, ниже - ежедневный
Нажми на Даг от 2020-07-01 зайди в любую выполненную таску и посмотри у неё старт тайм, когда она запускалась
источник

YV

Yuliya Volkova in Airflow
Max Efremov
Первые два - ежемесячные, ниже - ежедневный
источник

YV

Yuliya Volkova in Airflow
Max Efremov
Первые два - ежемесячные, ниже - ежедневный
Как видишь ежедневный у тебя last_run тоже не сегодняшнее число, почему это так - в доке аирфлоу (см скрин выше). Дата которая в ласт ран и в поле execution_date это та дата за которую ты процессишь данные, а не когда запускается даг. Те 6го ты процессишь данные за 5ое, если даг ежедневный, а в августе - за июль, если даг месячный, только в случае если даг запускается руками - там будет дата запуска реальная
источник

ME

Max Efremov in Airflow
Yuliya Volkova
Нажми на Даг от 2020-07-01 зайди в любую выполненную таску и посмотри у неё старт тайм, когда она запускалась
start_date   2020-08-05
источник

ME

Max Efremov in Airflow
Вчера у меня он догнал прошлые даты...
источник

ME

Max Efremov in Airflow
Т.е. он тупо с месячным лагом будет запускаться?
источник