はじめに
英国のスタートアップ企業であるPineapple Technology Ltd様が運営するincident.ioに関連したブログ The Practical Guide to Incident Management のポイントと解説
ポイント!!
- オンコールは企業にとって不可欠で、インシデント発生時に迅速な対応を取ることがカギとなります。
- オンコールはエンジニアだけでなく、すべてのチームにとって重要であり、オンコールを組織全体に分散させることでインシデントの解決と改善が促進される。
- オンコーラーは責任とエスカレーションの理解が不可欠であり、新しいオンコーラーのオンボーディングは成功のカギとなる。
参考:Every company needs on-call
解説
一番のポイントは2番にある「オンコールはエンジニアだけではなく、組織全体で対応が必要」という点です。記事の中ではstripeの例を出して、広報やコンプライアンス部門の関わりなども書いてあります。
システム障害対応はエンジニアに責任の所在があるように見えやすいせいか、エンジニアだけが孤立して対応している場合があります。顧客・エンドユーザーへの影響を最小限にすることを目指して、犯人捜しをしないことがおすすめです。
組織全体で対応するためには「システム障害対応時に、誰がどこまでやるかの役割(責任)」を明確にすることは大事です。決して、障害が発生した責任ではなく、システム障害が発生してしまった際の役割です。
システム障害対応時の難所は、この役割が明確になっていたとしても「その時々で対応できるメンバーが違うこと」で、今動けるメンバーでどのように影響を最小限にするかがマネージャー・インシデントコマンダーの腕の見せ所です。
用語
- オンコーラー:問題が発生した際に最初に連絡を受ける人。
- エスカレーション:さらに上のレベルや上級者に問題やタスクを委譲すること。
- オンボーディング:新しい従業員やシステムを組織に統合するプロセス。
執筆責任者
野村浩司
野村浩司
「3カ月で改善!システム障害対応 実践ガイド」著者
野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。
野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。