Size: a a a

2018 May 14

VS

Vladislav 👻 Shishkov in Airflow
делать выгрузку и загрузку батчами
источник

VS

Vladislav 👻 Shishkov in Airflow
тогда надо памяти максимум под 2 батча
источник

G

George in Airflow
Sergey Sheremeta
я стараюсь такие перекачки делать в 3 этапа:
1) выгрузить на источнике в дамп (CSV, например)
2) перенести по scp с источника на приемник
3) загрузить дамп в стейджинг приемника
Не мой вариант, но спасибо!
источник

G

George in Airflow
Oleg Ilinsky
Если стандартный опертор грузит все в память, то надо написать свой, который будет выгружать блоками по N строк и складывать файл на сервере airflow, затем писать в целевую базу
Тоже так подумал. Но решил спросить, вдруг есть более удобный вариант.
источник

KS

Ksenia Stroykova in Airflow
George
Тоже так подумал. Но решил спросить, вдруг есть более удобный вариант.
законтрибьютить еще, чтобы у всех появился удобный вариант =)
источник

FL

Fedor Lavrentyev in Airflow
Для стека Hadoop такую задачу решает Apache Sqoop. Airflow имеет встроенный Sqoop Operator. Если у тебя другой стек, попробуй погуглить аналоги или почитай про архитектуру Sqoop и сделай похожее сам.
источник

G

George in Airflow
Всем спасибо!
источник

KK

Kate Khrushch in Airflow
Добрый день! Кто-нибудь работал с BigQuery? Есть партицированная по дню табличка, которую создает Даг. Каждый час Даг ранится, и переписывает все за текущий партишн = текущий день. Есть ли возможность переписать предыдущие 30 дней, допустим?
источник
2018 May 16

EM

Egor Mateshuk in Airflow
если я правильно понял, то достаточно просто в запрос подставить execution date (как описано здесь https://airflow.incubator.apache.org/concepts.html#jinja-templating) чтобы запрос отрабатывал не за сегодня, а за нужное число, а потом перезапустить предыдущие даги через GUI или CLI
источник

YU

Ya Ugorel in Airflow
Всем привет. Недавно начали использовать Аирфлоу у себя в компании и столкнулись с необходимостью раннить квери в Хайв. Стандартный Hive Operator, на сколько я понял из данного ответа на СО https://stackoverflow.com/questions/34625153/airflow-hiveoperator-not-working работает сверху CLI клиента, которого у нас нет на аппе с Аирфлоу. Заюзали пока либу pyhive, но хочется решения из коробки, и в связи с этим вопрос, у кого-то получилось кверить в хайв через JdbcOperator? У нас на текущий момент падает с py4j.Py4JException: Method getConnection([class java.lang.String, class java.lang.String]) does not exist
источник

YU

Ya Ugorel in Airflow
Заранее спасибо всем)
источник
2018 May 17

A

Alexander in Airflow
Ya Ugorel
Всем привет. Недавно начали использовать Аирфлоу у себя в компании и столкнулись с необходимостью раннить квери в Хайв. Стандартный Hive Operator, на сколько я понял из данного ответа на СО https://stackoverflow.com/questions/34625153/airflow-hiveoperator-not-working работает сверху CLI клиента, которого у нас нет на аппе с Аирфлоу. Заюзали пока либу pyhive, но хочется решения из коробки, и в связи с этим вопрос, у кого-то получилось кверить в хайв через JdbcOperator? У нас на текущий момент падает с py4j.Py4JException: Method getConnection([class java.lang.String, class java.lang.String]) does not exist
Хайв оператор ещё через билайн работать может
источник
2018 May 21

YE

Yury Emelyanov in Airflow
Друзья, привет!

#bigdata #data #вакансии

Ищу в команду инновационного центра при департаменте транспорта Москвы крутых специалистов на архитектурно-инфраструктурное направление.

Уникальная возможность непосредственно делать BigData для города, в котором живешь!

Кого конкретно ищу:
1. Руководителя отдела - https://cloud.mail.ru/public/LmeE/FFwokaUop
2. Data Engineer - https://cloud.mail.ru/public/FCAr/5RCb5s3hx
3. Administrator - https://cloud.mail.ru/public/8kg4/soq5Nj1D6

На позицию 1 нужен реально крутой специалист, готовый строить как и систему, так и команду (в прямом подчинении команда до 6 человек).

Кто заинтересован, пишите yury.emeliyanov@live.ru или звоните +79854566473
Шер, лайк, репост!

И да пребудет с нами Data!
источник

SS

Sergey Sheremeta in Airflow
Коллеги, привет! Возможно, кому-то будет полезно... Выложил скрипты для создания Airflow parcel/CSD под Cloudera CDH  - https://github.com/ssheremeta/airflow-cloudera
источник

EV

Eduard Vlasov in Airflow
👌
источник
2018 May 25

NB

Nick Bilozerov in Airflow
Йоу, кто-то использует TriggerDagRunOperator, есть пару вопросов?
источник

I

Igor in Airflow
Используем. Но вопросов нет
источник

NB

Nick Bilozerov in Airflow
Пример который я использую: https://codebunk.com/b/700221710/ и проблема в том что dependent dag который я запускаю с TriggerDagRunOperator находится всегда в состоянии running и не запускает свои таски
источник

NB

Nick Bilozerov in Airflow
apache-airflow==1.9.0
источник

I

Igor in Airflow
У меня была похожая проблема, из-за странного времени запуска, получалось упорно что даг который я тригерю запускался не сразу а как-то там в другое время. Решилось написанием своего класса на базе библиотечного
источник