подскажите, как правильно импортировать свои пакеты?
разложил пока даги в такую структуру: |—dags | |—pr_1 | |—__init__.py | |—dag1.py | |—my_module.py |—__init__.py
пишу в dag1 - from dags.pr_1.my_module import MyClass а airflow мне - "No module named 'dags.pr_1'"
пока обычный пукелевский контейнер, добавил PYTHONPATH только в Dockerfile ENV PYTHONPATH=${AIRFLOW_HOME}:${PYTHONPATH}
1) https://docs.python.org/3/tutorial/modules.html 2) Workdir в контексте выполнения дагов — папка dags. То есть import pr_1.my_module должно работать. Но в целом я бы разделял код дагов и код библиотеки с хелперами, то есть даги пусть лежат файлами в dags, а хелперы в dags/my_package/__init__.py и тд
Понимаю, что пишу не в тот чатик, но вдруг кто-то сталкивался с подобным.
Я хочу быстро перекладывать часть таблички из хайва в вертику, но etl инструменты делают это достаточно медленно в силу пропускной способности сети.
Хотела сделать external table, чтобы просто обращаться к hdfs, но... Оно сообщает мне, что я пишу не все столбцы, что есть в файле. Проблема в том, что в таблице порядка 100 столбцов, мне нужно только 40 штук, не хочу я вручную это все писать.
Тем более я думала, что ORC позволяет так делать...