Привет.
Подскажите, вот у меня есть скриптик, который забегает в Hive, скачивает таблички, джойнит и кладет в Postgres.
Хотелось бы добавить к нему тестов и какой-нибудь защиты от всякой херни, мб в рантайме, мб до запуска.
Использую фасад, запускаю runner, в него передаю название нужного скрипта и название окружения.
Далее runner импортирует библиотечку, которая при импорте запускает последовательно get_dataframe()
и upload_dataframe()
На что можно обратить внимание? Пока в голову приходит некая проверка DQ, что все нужные таблички на кластере есть, есть нужные колонки в них и они не пустые (на то, что там данные актуальные - это уже вопрос к другому отделу, мне же не хочется гонять скрипт с пустым датафреймом).
Проверить, что Postgres и Hive живой и откликается.
И все, больше в голову что-то ничего не приходит.
Скрипт запускается через airflow, хочу при попадании в ловушку или непрохождении теста, выбрасывать ошибку, чтобы видеть это в статистике...