はじめに
英国のスタートアップ企業であるPineapple Technology Ltd様が運営するincident.ioに関連したブログ The Practical Guide to Incident Management のポイントと解説
ポイント!!
- システム障害のデバッグに対応している時に、素早く行うことを重視することはもとより大切ではあるが、一方で協力を優先する必要もあり、他のメンバーが持つ情報をチーム内で共有することがより効果的なインシデント対応に繋がります。
- デバッグプロセスを逐一記録することで、長時間の対応が予想される障害発生時にも協力しやすくすることが推奨されています。これにより、疲労感からくるチームの士気や作業効率の低下を防ぎ、適切に作業を続行することができます。
- テストやコマンドの実行時に得たデータをチーム内で詳細に共有することで、チーム内で情報の偏りがある状況が発生することを避けると同時に、知識の共有も行うことで、チームが一丸となって迅速な対応が可能な状態を維持します。
解説
「ベテランの人がぐんぐん作業を進めてくれる」ってやつですね・・・
ありがたいのですが、他の人が協力しづらくなっていって、孤立をしていくパターンに陥りがち。(私もかつてそうでした)
「自分の作業を他の人にも共有していく重要性」を書いた記事になっています。
ベテランになり仕事ができればできるほど、お客様へ迷惑をかけないように自分ができる最速で復旧を目指していくものです。その時に削られる作業の一つが「記録」です。
今やっていること、今後やろうとしていること、何故そう判断したかなど記録して共有していくと、チームだけじゃなく会社や世界で有用な情報が詰まっているはず!
ですが、私自身もなかなか残せませんでした。
これを解決するためのツールを選ぶことは重要です。
私の障害対応のサービスを選ぶ判断軸は、「普段通りに作業をしたら記録が取れること」と「改善もうまく回っていく仕組み」です。
障害対応時は忙しいから障害対応後に取ろうとなっても、障害対応完了直後は疲れ切っているし、翌日以降はもう障害対応のことは忘れ始めて、障害対応でできなかった通常業務をこなす、、、そんなことが繰り返されています。そのため、普段通りの障害対応をしていたら障害対応の記録が取れることが重要になってきます。
次に難しいのがこの障害対応の記録を基に改善を進めることです。せっかく情報を残していても何も使われていない。そんな経験おありではないでしょうか?私はたくさんありました・・・
障害対応時のプロセスだけじゃなく、その後の改善プロセスにも目を向けて、その中に組み込んで、思わず改善したい!と思えるようなプロセス・役割分担などを作る必要があります。
宣伝になってしまいますが、インシデント管理ツールをXonOps企画・開発・販売に携わっています。
アラートメッセージを連携さえすれば、エスカレーション電話を自動化し、誰が電話を取ったかを自動で記録してくれます。その後、自分へ来る電話を減らしたい、若手にも対応をしてほしい、という気持ちから、Webを開いて1分の簡単な正規表現で記録ができる、そんなサービスです。
野村の10年以上の経験を詰め込んで作って自信をもってお勧めできるサービスのため、是非こちらから見て下さい!
用語
デバッグ:ソフトウェアやコンピュータプログラムに存在するバグ(エラーや不具合)を特定し、修正するプロセス。
野村浩司
野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。