Друзья, приветствую. Начал знакомство с airflow и интересует следующий вопрос. Как лучше посоветуете реализовать следующую механику:
Есть 2 БД source_db и dest_db.
Надо осуществлять периодический перенос данных из одной в другую, при этом хочется отслеживать появление новых записей с нужной периодичностью в source_db, и при появлении новых записей, осуществлять select этих записей из source_db и insert в dest_db.
Нужно ли обращаться к сенсорам, которые будут опрашивать бд и запускать таск, который уже будет делать выборку строк из source_db, которых еще нет в dest_db. Или можно просто предусмотреть опросы все этих баз в рамках одного таска? Какие best practice существуют в таких ситуациях
Если есть периодичность, и согласны терпеть edge case, когда не обнаружите новые файлы спустя минимальную единицу времени после запуска дага (прождать до переноса чуть меньше периода), то просто пишите идемпотентый DAG.
Внутри соответственно таски, проводящие необходимую синхронизацию