How to Measure the Reliability
Site Reliability Engineering の中核となる考え方に SLO - Service Level Objectives があります。これは信頼性を SLI - Service Level Indicator として計測し、目標値(Objective)を定め、それを下回った時のポリシーを決めることで、サービス開発の信頼性と機能開発の優先順位をつけることに役立ちます。しかしこれらを実現するには、信頼性とは何を指すのか、何を計測すべきなのか、そしてどのようにプロセスとして組織で取り組むべきなのかを考える必要があります。本発表では信頼性を計測する理由、考え方、具体的な実現方法を説明します。また、このプロセスを組織で取り組むことによってプロダクト開発の信頼性と速度にどう影響するのか、その実践例も説明します。
Outline/Structure of the Talk
- 信頼性とは何か
- SLI / SLO / SLA
- Error Budget
- なぜ SLO が必要か
- SLI を実装する場所
- SLI を実装する方法
- 計測可能なアーキテクチャにする
- SLO をどう定めるか
- SLI / SLO の見直し
- エラーバジェットポリシーをどう運用するか
- 開発チーム自身が Fact-based で信頼性を観察する世界を作る
Learning Outcome
- SLI / SLO / Error Budget それぞれの考え方を学び、適切に運用ができるようになる
- SLI の具体的な実装場所・方法の選択肢を知り、自社サービスにあったものを選択できるようになる
- SLO / Error Budget Policy の決定方法・運用方法のケーススタディから自社サービスでの運用方法のヒントを得ることができる
Target Audience
プロダクト開発の信頼性と開発速度を高めたいすべての方
Prerequisites for Attendees
Site Reliability Engineering についての知識があるほうが望ましい