Size: a a a

2020 December 17

IK

Ivan Kizimenko in Airflow
Спасибо, думал есть что-то из коробки
источник

ME

Max Efremov in Airflow
Ivan Kizimenko
А есть какие то варианты автоматической чистки логов?
Мы по крону удаляем логи из каталога логов)
источник

ME

Max Efremov in Airflow
Хотя вариант пока не идеальный, не получилось одновременно нормально запустить крон демона и аирфлоу в контейнере(
источник

O

Olegа in Airflow
Всем привет,  в чем может быть причина того, что не запускаются таски у дага? У начальных тасков state = scheduled и больше ничего не просиходит. Пытался стригерить - не помогло. start_date стоит на прошедшее число.

Еще в task instance details пишет такое:
All dependencies are met but the task instance is not running. In most cases this just means that the task will probably be scheduled soon unless:
- The scheduler is down or under heavy load
- The following configuration values may be limiting the number of queueable processes: parallelism, dag_concurrency, max_active_dag_runs_per_dag, non_pooled_task_slot_count


Посмотрел в конфиг, значений всех этих переменных должно хватать.
источник

O

Olegа in Airflow
Task Instance State   Task is in the 'None' state which is not a valid state for execution.

еще такое бывает пишет
источник

A

Andrey in Airflow
можно посмотреть логи шедулера и дага\конкретной таски на локальной системе
источник

SZ

Sergey Zhuravlev in Airflow
Привет всем. Есть ли признак у файла, чтобы понять, что он еще докачивается в данный момент? Смысл: сенсор ждет новых файлов в папке, файлы большие и сенсор может среагировать когда файл был создан в файловой системе, но по факту еще недокачан с другой стороны в сетевую папку. Пока что я просто проверяю его размер через каждые 10 сек  и как только он перестает меняться понимаю что можно запускать следующую задачу.
источник

С

Сюткин in Airflow
Sergey Zhuravlev
Привет всем. Есть ли признак у файла, чтобы понять, что он еще докачивается в данный момент? Смысл: сенсор ждет новых файлов в папке, файлы большие и сенсор может среагировать когда файл был создан в файловой системе, но по факту еще недокачан с другой стороны в сетевую папку. Пока что я просто проверяю его размер через каждые 10 сек  и как только он перестает меняться понимаю что можно запускать следующую задачу.
После успешной закачки файла пусть прилетает доп файл например md5 или success, тогда ты будешь знать что именно этот файл успешно выгружен
источник

SZ

Sergey Zhuravlev in Airflow
Это было бы в идеале. Придётся лезть к ребятам обработчикам файлов и их ETL процессы. Ок, просто подумал может что то не знаю о свойствах файла в ФС. Спасибо
источник

M

Mikhail in Airflow
Sergey Zhuravlev
Привет всем. Есть ли признак у файла, чтобы понять, что он еще докачивается в данный момент? Смысл: сенсор ждет новых файлов в папке, файлы большие и сенсор может среагировать когда файл был создан в файловой системе, но по факту еще недокачан с другой стороны в сетевую папку. Пока что я просто проверяю его размер через каждые 10 сек  и как только он перестает меняться понимаю что можно запускать следующую задачу.
а какая платформа?
источник

M

Mikhail in Airflow
по идее можно посмотреть, сколько/какие процессы сейчас открыли файл
источник

M

Mikhail in Airflow
+ можно посмотреть, что размер файла не менялся какое-то установленное время
источник

SZ

Sergey Zhuravlev in Airflow
Mikhail
+ можно посмотреть, что размер файла не менялся какое-то установленное время
Да, я написал что так и делаю сейчас. Везде линь, ext4
источник

SZ

Sergey Zhuravlev in Airflow
Ubuntu 18
источник

M

Mikhail in Airflow
ну я думаю что это на самом деле оптимальный вариант
источник

M

Mikhail in Airflow
если папка сетевая, с процессами не получится
источник

SZ

Sergey Zhuravlev in Airflow
Я подумал, что вероятно в наблюдаемой папке буду делать не еще один файл типа success, а попрошу ребят поменять немного etl свой который файлы забрасывает в сетевую, чтобы каждый файл был положен в отдельную папку, имя папки это md5 файла. Дальше я со своей стороны просто чекаю имя папки и хеш файла
источник

M

Mikhail in Airflow
а хеш оптимально считать? это же каждый раз качать файл по сети
источник

С

Сюткин in Airflow
Sergey Zhuravlev
Я подумал, что вероятно в наблюдаемой папке буду делать не еще один файл типа success, а попрошу ребят поменять немного etl свой который файлы забрасывает в сетевую, чтобы каждый файл был положен в отдельную папку, имя папки это md5 файла. Дальше я со своей стороны просто чекаю имя папки и хеш файла
Лить в темп папку на твоей тачке,после успешной загрузки перемещать в целевую
источник

M

Mikhail in Airflow
потом можно без папок, к имени файла присобачить хеш
источник