Size: a a a

2020 June 22

M

Mikhail in Airflow
это вообще плевок в океане
источник

GG

George Gaál in Airflow
Mikhail
зачем нужна кафка на 2 сообщения в секунду?
2 - это средняя
источник

GG

George Gaál in Airflow
может там спайки, хз
источник

M

Mikhail in Airflow
редис прекрасно справится с этим и ростом на 3 порядка
источник

GG

George Gaál in Airflow
а задача процессинга на кафке через стримс решается вообще по красоте
источник

GG

George Gaál in Airflow
зависит от доп требований, отказоустойчивости и прочего
источник

M

Mikhail in Airflow
да, а еще на неё нужен отдельный инженер чтобы она не падала блэд
источник

GG

George Gaál in Airflow
Mikhail
да, а еще на неё нужен отдельный инженер чтобы она не падала блэд
ну, мы же в айти - надо плодить рабочие места для айти )
источник

ML

Mikhail Lopotkov in Airflow
Mikhail
зачем нужна кафка на 2 сообщения в секунду?
+
kafka нужно при большом потоке
у нас не так, проблема больше именно в планировании задач
источник

M

Mikhail in Airflow
конечно да, вопрос в требованиях
источник

SG

Sergey Gavrilov in Airflow
А, да, точняк, статью же вчера буквально читал
источник

M

Mikhail in Airflow
возьмите редис + селери
источник

GG

George Gaál in Airflow
Sergey Gavrilov
А, да, точняк, статью же вчера буквально читал
которую  ?
источник

GG

George Gaál in Airflow
Mikhail
возьмите редис + селери
с этим вариантом солидарен, для старта - то что нужно
источник

VS

Vladislav 👻 Shishkov... in Airflow
А я бы взял кролика 🤔
источник

GG

George Gaál in Airflow
источник

GG

George Gaál in Airflow
очень познавательно
источник

GG

George Gaál in Airflow
Vladislav 👻 Shishkov
А я бы взял кролика 🤔
я your bunny 😊
источник

SG

Sergey Gavrilov in Airflow
Mikhail Lopotkov
+
kafka нужно при большом потоке
у нас не так, проблема больше именно в планировании задач
https://blog.panoply.io/top-9-python-etl-tools-and-when-to-use-them

Есть подозрение, что тут можно найти то, что вам пригодится
источник

ML

Mikhail Lopotkov in Airflow
почти все эти статьи читал, да
но пока не нашел инструмента с возможностью из коробки планировать ~5-10 млн. задач

есть идея только такая: хранить задачи в postgresql (paritition + sharding при необходимости)
rabitmq / kafka - для доставки задач на выполнение

И поверх всего этого, придется сделать самим управление задачами:
- отменить задачу (еще не ушла на выполнение, в очереди ожидает выполнение, уже у воркера на выполнении)
- обновить задачу (пришла более актуальная информацию, все тоже самое что и для отмены)

т.е. проблема больше не в нагрузке, задач не так много в ед. времени
а в удобном управлении выполнением, т.к. одна задача затрагивает много сервисов, иногда платных
и хочется гибко управлять выполнением (не делать лишние вызовы)

наткнулся как-то на http://activemq.apache.org/
но еще не успел посмотреть, это вроде чуть больше навороченный rabbitmq
источник