Оффлан/онлайн перегон? У нас как сделано - airflow может запускать либо задачи на MS SQL, либо задачи на Clickhouse, либо задачи на сервере спарк. Спарк-задача начинается с загрузки откуда-то данных, а заканчивается тем, что он их куда-то кладёт. Т.е. ставим задачу MS SQL, например, выбрать данные и сложить у себя в отдельную таблицу. Следующий таск - спарк обрабатывает данные, закидывает на hdfs. Следующий таск - Clickhouse забирает данные с hdfs. Следующий - трём данные в hdfs.
То есть, у вас это не про риал-тайм аналитику, правильно?