Size: a a a

SPb Reliability Meetup

2019 January 15

VL

Vitaliy Levchenko in SPb Reliability Meetup
просто некоторое время долго отвечал
источник

VG

Valentine G in SPb Reliability Meetup
ты изначально писал, что ответ сервиса должен быть 1мс, потом писал что он прилетал за 10мс, и иногда не прилетал вообще
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
медиана в обычное время — 1ms
источник

VG

Valentine G in SPb Reliability Meetup
Vitaliy Levchenko
просто некоторое время долго отвечал
ну то есть вы такой сценарий вообще не рассматривали?
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
но иногда существенно дольше. Поэтому большой таймаут
источник

VG

Valentine G in SPb Reliability Meetup
а что прописано в SLA?
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
это легаси дрянь, какое SLA?
источник

AC

Alexander 😼 Chistyakov in SPb Reliability Meetup
Vitaliy Levchenko
просто некоторое время долго отвечал
Так ведь это и есть «лёг»
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
некоторое время — несколько секунд
источник

VG

Valentine G in SPb Reliability Meetup
Vitaliy Levchenko
это легаси дрянь, какое SLA?
ну вопрос к управленцам, если вы подвязываетесь на легаси говно-сервис без СЛА, и вы не тестировали сценарий, когда он вообще умер?
источник

VG

Valentine G in SPb Reliability Meetup
еще раз, это даже не проблема архитектуры, это проблема административная
источник

VG

Valentine G in SPb Reliability Meetup
все что может лечь - ляжет
источник

AC

Alexander 😼 Chistyakov in SPb Reliability Meetup
Ну и это - там же мониторинг всей внешки должен быть?
источник

VG

Valentine G in SPb Reliability Meetup
надо исходить из этого
источник

AC

Alexander 😼 Chistyakov in SPb Reliability Meetup
В свою очередь, я тоже могу рассказать клевую историю
источник

VG

Valentine G in SPb Reliability Meetup
и мы видим, что из данного кейса вы сделали не совсем правильные выводы, и кастуете новую мантру как универсальное решение
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
Valentine G
и мы видим, что из данного кейса вы сделали не совсем правильные выводы, и кастуете новую мантру как универсальное решение
вывод только один. Админ проблему решить не может, даже читая код. Разработчик — тоже плохо понимает как копать. С комплексным видением — решилась
источник

VG

Valentine G in SPb Reliability Meetup
а когда эта ситуация случилась? сколько еще внешних сервисов вы используете? сколько из них мониторите? замеряете ли у них SLA? отрабатываете ли сценарий падения внешнего сервиса? вы не проблему решили, а один из вариантов симптома более комплексной проблемы
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
Valentine G
а когда эта ситуация случилась? сколько еще внешних сервисов вы используете? сколько из них мониторите? замеряете ли у них SLA? отрабатываете ли сценарий падения внешнего сервиса? вы не проблему решили, а один из вариантов симптома более комплексной проблемы
в архитектуре предусмотрена возможность падения, случаи полного падения были и их пережили без особых потерь для пользователей
источник

AC

Alexander 😼 Chistyakov in SPb Reliability Meetup
Alexander 😼 Chistyakov
В свою очередь, я тоже могу рассказать клевую историю
Так вот - был проект на языке Perl (это была рекламная система), местный технический лидер перед увольнением успел продать асинхронщину, новый технический лидер асинхронщину справедливо не любил, но ее уже купили! Система под нагрузкой ни с того ни с сего начинала адски тупить на внешних запросах. Внешний сервис, при этом, работал отлично.
Понадобились сутки ныряния в местный userspace планировщик (Марк Леман - гений, кроме шуток), чтобы понять, что на внешку ходили
тадам! тадааам! и Оскар уходит к!..
...асинхронным клиентом, который привык обычно эмулировать браузер, с общей глубиной очереди 3
Если запросов скапливалось больше, начинался почти бесконечный цикл репланнинга
источник