Size: a a a

2021 March 17

ME

Max Efremov in Airflow
Я попробую поточнее описать и нарисовать тогда)
источник

ME

Max Efremov in Airflow
с примерами)
источник

S

Staseello in Airflow
Всем привет. Возникла неожиданная проблема. Есть даг из 3  PythonOperator, Airflow 1.10.14 крутится в кубере, так вот любая таска из этого дага падает без логов, СРАЗУ после того как джоб зашедулился, даже если все таски будут вида

def foo():
   time.sleep(60)

В логах веб-сервера при этом пусто, в логах шедулера единственное что есть это

{taskinstance.py:1150} ERROR - Executor reports task instance <TaskInstance: metabase_tnmm.tnmm_furniture_buffs 2021-03-17 09:29:14.601442+00:00 [queued]> finished (failed) although the task says its queued. Was the task killed externally?
NoneType: None
источник

IL

Ilya Lozhkin in Airflow
Привет всем, а куда вы собираете статистику из задач, сколько ссылок обработано и тд?
источник

GB

Georgy Borodin in Airflow
Ilya Lozhkin
Привет всем, а куда вы собираете статистику из задач, сколько ссылок обработано и тд?
Стату по airflow через statsd собирают, можешь через него же и что-то своё добавлять, чтобы не плодить несколько сервисов
источник

СГ

Станислав Горчаков... in Airflow
привет всем, а кто-нибудь знает, почему 2.0 так много записывает в мета БД pickle дагов во время препроцессинга файлов? А если будет 6к дагов, то это же совсем кошмар. Может кто-нибудь знает, как это поведение пофиксить или может куда посмотреть?
источник

VS

Vladislav 👻 Shishkov... in Airflow
Станислав Горчаков
привет всем, а кто-нибудь знает, почему 2.0 так много записывает в мета БД pickle дагов во время препроцессинга файлов? А если будет 6к дагов, то это же совсем кошмар. Может кто-нибудь знает, как это поведение пофиксить или может куда посмотреть?
https://airflow.apache.org/docs/apache-airflow/stable/dag-serialization.html
From Airflow 2.0 DAG Serialization is a strictly required and can not be turned off.
источник

ЕК

Евгений Кузнецов... in Airflow
Добрый день! Снова я, динамически оттипизированный,  подскажите пожалуйста: у меня есть задача инкрементальной загрузки данных в DWH из других источников, при этом есть жеское требование обеспечивать актуальность данных близкой к реал-тайму и есть ограничения по объему ОЗУ для перегонки данных, так вот вопрос в том что может кто кто поделиться опытом решения такого кейса. Условно мне нужно задать направление в котором начать копать (ссылки на статьи, вообще шик если там есть примеры кода а не сухое перечисление фич)
источник

DN

Dmitriy Novikov in Airflow
Евгений Кузнецов
Добрый день! Снова я, динамически оттипизированный,  подскажите пожалуйста: у меня есть задача инкрементальной загрузки данных в DWH из других источников, при этом есть жеское требование обеспечивать актуальность данных близкой к реал-тайму и есть ограничения по объему ОЗУ для перегонки данных, так вот вопрос в том что может кто кто поделиться опытом решения такого кейса. Условно мне нужно задать направление в котором начать копать (ссылки на статьи, вообще шик если там есть примеры кода а не сухое перечисление фич)
А что именно вы хотите узнать? Как наладить  поставку в брокер? Или через airflow это решить?
источник

ЕК

Евгений Кузнецов... in Airflow
Dmitriy Novikov
А что именно вы хотите узнать? Как наладить  поставку в брокер? Или через airflow это решить?
Для начала полезно было бы узнать как вообще это правильно делать
источник

DN

Dmitriy Novikov in Airflow
Евгений Кузнецов
Для начала полезно было бы узнать как вообще это правильно делать
источник

DN

Dmitriy Novikov in Airflow
Евгений Кузнецов
Для начала полезно было бы узнать как вообще это правильно делать
Если по простому то Приложение -> Шина -> DWH 😘 А так книга в целом годная, можно изучить.
источник

ЕК

Евгений Кузнецов... in Airflow
это хороший вариант для новых проектов, а для легаси? у меня сейчас есть проекты которые пишут в продовый кх на котором условно живет админка и нужно на стороне организовать перегонку в отдельное хранилище из этого кх в dwh
источник

DN

Dmitriy Novikov in Airflow
Евгений Кузнецов
это хороший вариант для новых проектов, а для легаси? у меня сейчас есть проекты которые пишут в продовый кх на котором условно живет админка и нужно на стороне организовать перегонку в отдельное хранилище из этого кх в dwh
Ну вы поменьше информации давайте на вход, это явно поможет ускорить решение вашей задачи :)
источник

DN

Dmitriy Novikov in Airflow
Евгений Кузнецов
это хороший вариант для новых проектов, а для легаси? у меня сейчас есть проекты которые пишут в продовый кх на котором условно живет админка и нужно на стороне организовать перегонку в отдельное хранилище из этого кх в dwh
Можно попробовать почитать блог badoo https://habr.com/ru/company/badoo/ они много и быстро добавляеют в кликхаус.
источник

DN

Dmitriy Novikov in Airflow
Евгений Кузнецов
это хороший вариант для новых проектов, а для легаси? у меня сейчас есть проекты которые пишут в продовый кх на котором условно живет админка и нужно на стороне организовать перегонку в отдельное хранилище из этого кх в dwh
Вообще странно что админка и кх в одном месте упоминаются, что за сервис такой, что ему для бека нужен olap?
источник

DN

Dmitriy Novikov in Airflow
Евгений Кузнецов
это хороший вариант для новых проектов, а для легаси? у меня сейчас есть проекты которые пишут в продовый кх на котором условно живет админка и нужно на стороне организовать перегонку в отдельное хранилище из этого кх в dwh
К слову если задача просто перегонять данные из одного кх в другой то можно попробовать использовать MV и удаленный доступ к БД.
источник

ЕК

Евгений Кузнецов... in Airflow
а как MV решит проблему перегонки данных?
источник

ЕК

Евгений Кузнецов... in Airflow
сейчас я вижу у себя такое решение прод бд ->  airflow -> dwh (тоже КХ) -> MV -> шардирование в чистовой КХ -> Tableau
источник

DN

Dmitriy Novikov in Airflow
Евгений Кузнецов
а как MV решит проблему перегонки данных?
ну так тригер на инсерт, я правда не уверен что можно, но попробовать если указать в качестве движка удаленную машину... там есть такие движки
источник