はじめに
英国のスタートアップ企業であるPineapple Technology Ltd様が運営するincident.ioに関連したブログ The Practical Guide to Incident Management のポイントと解説
ポイント!!
- ”インシデントステータス”は「システム障害がどのくらい解決に向かっているのかを示す指標」であり、関係者とよりよい対応をするために重要です。
- インシデントステータスは小規模なチームや短期の障害の場合、「進行中」と「解決済み」の二つにステータスを絞ることが適しています。
- もし「進行中」ステータスを更に詳しくするならば、「調査中」、「修正中」、「監視中」などです。
参考:Statuses
解説
システム障害のステータスはよく議論になりますね。上記にある「小さいチームなら2ステータスでよい」というのはその通りだと思います。最初から複雑にしすぎる傾向にあるので、組織が大きくなったり、大規模な障害の時は別として、「進行中」「解決済み」の2つで十分だと思います。
記事で面白いなと思ったのは、ステータスを考える基準の3つ
- 「今は解決しているの? 」(原文”are we there yet?”)
- 「何が問題かわかった?」(原文”do we know what’s wrong?” )
- 「影響は続いているの?」(原文”is the impact still happening?“)
※日本語は直訳ではなく意訳しています。
障害の大きさを判定する基準はよく聞きますが、ステータスの基準はあまり聞いたことなく、私も改めて考える機会になりました。
ここに書いてあることは、「システム障害対応で重要となる情報の一部(サービス影響、原因、復旧見込み)をステータスに取り込むべき」という発想だと気づきました。
今までは、主に状態や作業実施内容(調査中、連絡中など)としていましたが、重要情報が明らかになっているか」のほうがステータスとして重要です。
是非、皆さんもご自身のチームのシステム障害ステータスが過剰に多くないかを見直してみたり、ステータスを見直す機会があれば「重要情報の明らかになっているか」を取り込んでみてください。
ここまでご覧いただきありがとうございました!
用語
- インシデントステータス:システム障害対応の進捗と状態を示すラベル。
- 取引先(ステークホルダー):インシデントに関心や関与を持つ個人やグループで、内部および外部の関係者を指します。
執筆責任者
野村浩司
野村浩司
「3カ月で改善!システム障害対応 実践ガイド」著者
野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。
野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。