Всем привет. Подскажите как правильно реализовать такой функционал. Нужно каждые 15 минут копировать с фтп сервера самый свежий файл. Так как функционал сервера крайне урезан, приходиться забирать с сервера список файлов, сплитить строки и вычленять дату и время создания файла, и затем сравнивать эту дату с текущим значением даты и времени на сервере. Это сделано с помощью python оператора и спецефичного колбека для FTP.dir(). На фтп сервере определён конечный набор файлов по которым ротируется запись. Имя скачанного файла передаётся как xcom на вход следующего оператора. Как избежать повторной обработки одного и того же файла?
Ну для начала, привяжитесь к времени, за которое отрабатывает ДАГ, когда забираете файл.
А далее я бы предложил вам в отдельной БД-ке вести учёт файлов, которые были обработаны, если у вас нет возможности удалять "обработанные" данные, полученные из файлов. Если же есть, то дефолтное поведение — перезаписывать данные, ориентируясь на что-то уникальное. Это может быть имя файла, диапазон айдюков, дата etc