はじめに
英国のスタートアップ企業であるPineapple Technology Ltd様が運営するincident.ioに関連したブログ The Practical Guide to Incident Management のポイントと解説
ポイント!!
- インシデント対応には専用スペースを作成することが重要であり、物理的な「war room(≒障害対策本部」や仮想的な「Channel(≒チャットの障害対応チャンネル)」特にリモートワークの時代において、柔軟かつ効果的な連携が必要とされています。
- インシデント対応は組織全体の協力を必要とし、特に異なるバックグラウンドを持つメンバー同士が協力しなければならない場合があります。それに際して、チームのメンバーの「役割」を事前に定義することとインシデントリードの設定することが求められます。
- インシデント対応においては、問題を特定し、発生した影響を迅速に緩和すること、長期的な解決策の検討していくこと、そして最終的なインシデント対応の完了までのステップをガイダンス化していくことがポイントになります。
参考:The lifecycle of an incident
解説
こちらではインシデント対応のプロセス・ステップについて書いてあります。
- 新しいスペースを作成する:Create a fresh space
- チームを組織する(体制構築):Assemble a team
- 原因を特定する(原因特定):Identify what’s broken
- 影響を軽減する(暫定対応):Mitigate the impact
- 一時休憩する(一時休憩)Take a pause
- 解決する(本格対策)Resolve
- インシデントクローズ:Close the incident
特に触れたい点は2点で「影響を軽減する(暫定対応):Mitigate the impact」と「一時休憩する(一時休憩)Take a pause」です。
「影響を軽減する(暫定対応):Mitigate the impact」は、3点重要だと言われています「前進だけとは限らない:Don’t always fix forwards」「重要業務を守る:Protect the core」「積極的に行動する:Be proactive」
「積極的に行動する:Be proactive」では、”各チームに権限委任して、リスクの低いと思われる修正は積極的に適用していきましょう!!”と書いてあります
私からするとこれはかなり驚きで私が長く歩んだSIerとWeb企業の違いというやつなんですかね・・・?
障害対応の時には、システム修正は必ずマネージャーの承認が必要!で、これをコントロールするのが統括者として役割だ考えていましたが、もしかしたら文化違うのかなーと驚きました。
Be proactive
https://incident.io/guide/response/the-lifecycle-of-an-incident
Make full use of your team and proactively apply whatever fixes you think are low-risk, even if you suspect it might not fix the whole problem. Scale down non-essential queues, put a freeze on deploys, and restart that component.
If you can delegate effectively to your team, it doesn’t cost much to try these simple low-risk fixes (as long as other responders continue to work on root cause analysis assuming these fixes will fail).
もう1つが「一時休憩する(一時休憩)Take a pause」です。
これも驚いた点でプロセス内に休憩しよう!と書いてあります。実は後に「チームを大切にする(Caring for your team)」という章があって、私自身の障害対応で気を使っていたけど、休憩についてプロセスで明確に書いたことは無かったなと反省し、学びが多かったです。
Take a pause
https://incident.io/guide/response/the-lifecycle-of-an-incident
After the initial impact has been mitigated, you’ll want to start thinking about longer-term resolutions. But first, this is a good time to take a breather. Make sure everyone’s eaten enough, and take some time to reset before jumping into the next phase. You can read more about this in Caring for your team.
用語
障害対策本部(war room):インシデント対応の協力のための専用スペース。物理的なものと仮想的なものがある。
インシデントリード:インシデント対応チームを組み立て、リードする責任者。
緩和:インシデントの影響を最小化及び防止するためのアクションを取ること。
野村浩司
野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。