Size: a a a

2018 January 25

SS

Sergey Sheremeta in Airflow
ясно! используем python 3.6
мы столкнулись с тем, что большинство хуков-операторов для работы с Hadoop написаны под python 2.7, который в Hadoop по умолчанию
и пришлось делать плагины, переопределяющие логику всех hive/sqoop/webhdfs-хуков
источник

I

Igor in Airflow
А вы при этом её дружили случайно даги под разные версии?
источник

SS

Sergey Sheremeta in Airflow
нет, везде используем python 3.6
источник

I

Igor in Airflow
Может это можно настроить через отдельные очереди например
источник

SS

Sergey Sheremeta in Airflow
Дина Сафина
Докеров у нас пока нет, мы virtualenv под Python2.7
докеров нет, но планируете?
источник

YE

Yury Emelyanov in Airflow
Sergey Sheremeta
докеров нет, но планируете?
нет
источник

JS

John Smith in Airflow
А почему - нет
источник

YE

Yury Emelyanov in Airflow
Все просто. Наша эксплуатации (читай админы) не работают с докер.
источник

JS

John Smith in Airflow
Юрий, вы на мой вопрос о на грузке на сеть и объемам трафика сказали 10...я спустя день хочу спросить 10 мегабит в секунду, 10 гигабит и 10 мегабайт...и второй вопрос уже сегодня...выгрузка из базы например mysql - одним потоком-процессом-воркером, или задается, для примера сработал сенсор-хук - вовращает, что база выросла на 1 млн.записей - вы сами должны паралелить выгрузку в скрипте для скорости или это можно как доверить airflow
источник

JS

John Smith in Airflow
Нагрузке
источник

YE

Yury Emelyanov in Airflow
Хороший вопрос был. Про сеточку уточню, отвечу. Или в личку или сюда.

Про прокачку из мускуля. Готового решения у airflow для параллельной  прокачки из sql нет. Но у вас есть возможность запилить свой оператор для таблиц у которых есть PK в котором автоинкрментируемый ID. Нужно только заморочится о контроле получения каждой пачечки. Задача решаемая в целом.
источник

SS

Sergey Sheremeta in Airflow
аналог apache sqoop
источник

JS

John Smith in Airflow
Yury Emelyanov
Хороший вопрос был. Про сеточку уточню, отвечу. Или в личку или сюда.

Про прокачку из мускуля. Готового решения у airflow для параллельной  прокачки из sql нет. Но у вас есть возможность запилить свой оператор для таблиц у которых есть PK в котором автоинкрментируемый ID. Нужно только заморочится о контроле получения каждой пачечки. Задача решаемая в целом.
Спасибо
источник

JS

John Smith in Airflow
Я понимаю ☺ что задача решаема, хотелось бы из коробки
источник

YE

Yury Emelyanov in Airflow
Из коробки как писал @ssheremeta  - sqoop. Сам не пробовал. И если у вас GreenPlum то там PXF, который может такое при import-е в Сливу из внешних источников.
источник

JS

John Smith in Airflow
Сели посчитали с коллегами: 1 тб 2 недели. 24 тб год. Средний показатель (это без укор предьяв, про себя, скажем так) хотелось бы конечно аналогии во вставках в условную базу. Но да ладно
источник

JS

John Smith in Airflow
У нас кассандра кластеры...и свое решение...для табличных баз - как его..сис от микрософт. В день на олном сегменте от 6 до 20 млн.строе с табличных баз
источник

JS

John Smith in Airflow
Одном сегменте
источник

JS

John Smith in Airflow
Хочется уйти от микрософта и добавить вариативности источников в схему...вот и смотрю на airflow
источник

JS

John Smith in Airflow
Попробал на стенде apache nifi - умер на 40 мегабитах в базу ms sql
источник