はじめに
英国のスタートアップ企業であるPineapple Technology Ltd様が運営するincident.ioに関連したブログ The Practical Guide to Incident Management のポイントと解説
ポイント!!
- 組織全体で「インシデント」の明確な定義が不可欠(エンジニアリング組織だけではダメ!)であり、これは一貫した報告体制と横断的な協力体制を促進します。
- incident.ioの定義では「計画された仕事から離れること」
(An incident is anything that takes you away from planned work with a degree of urgency.)
- インシデントは”広い定義”を採用することで、小さなインシデント対応を通じて、対応方法に慣れ洞察を得つつ、システムの回復力と信頼性を向上させるべきです。
インシデント定義の具体例
- インシデントで有るもの「最大の顧客が契約を再交渉しない限り解約」
- インシデントで無いもの「CSS に関する問題で一部のブラウザを使用しているユーザーに影響」
解説
1点目は「エンジニアリング組織だけではなく組織全体で定義しましょう」というもの。Part1からの主張と同じですね。
考え方で独特なのは2点目、3点目です。「計画された仕事から離れること」で”広い定義”と書いています。「緊急度が高いものは影響が軽微でも全部インシデント」という意味と捉えられます。
一般的にインシデントは「緊急度」と「重要度」で判断しているところが多いので違いです。重要顧客の再契約交渉がインシデントで、CSSの修正がインシデントじゃない。というの点は皆様の定義と違うのではないでしょうか?
一般的にはエンジニア視点で、影響が大きいものをインシデントとしがちな私たちに新たな視点を与えるもので、チームとしてのインシデントを考えなおすきっかけになります、是非一度話し合ってみてください。
他にもこの記事ではインシデント対応のルールで「所有権の明確化」「知識の共有」「優先順位付け」等もかいてありましたが、ここは一般的な内容だったため割愛しました。
用語
- インシデント:一定の緊急性を持って計画された作業から逸脱するもの。
- しきい値:何かがインシデントとみなされるレベル。
執筆責任者
野村浩司
野村浩司
「3カ月で改善!システム障害対応 実践ガイド」著者
野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。
野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。