はじめに
英国のスタートアップ企業であるPineapple Technology Ltd様が運営するincident.ioに関連したブログ The Practical Guide to Incident Management のポイントと解説
ポイント!!
- インシデントは普段は日常的に触れる機会のないシステムの一部に影響を与える影響があり、専門のシステムアプリケーションに特化したエンジニアであっても、初めてのデバッグ経験となるインシデントであるかもしれません。
- 完璧さを常に追求する必要はありません。インシデントの発生時に明確に警告を知らせるシステムとインシデントの影響を可能な限り最小限に抑えることが大切です。
- インシデントはチーム外の人々との出会いの絶好の機会でもあることは覚えておくべきでしょう。それぞれのインシデントは必ず個人の成長に寄与します。
解説
この章では、インシデントから得られる「初めての種類のデバック経験」「他チームとの関係性を持つ」について書かれています。
ただ、本当はこの学びを普段のプロセスの中(例えば、故障訓練や教育)で得たいものです。
「初めての種類のデバック経験」について、私自身もあるシステムを6年開発・保守・運用をしていて、このシステムはすべてわかっていて、私以上にこのシステムを知っている人いない!って思っていたころにも、システム障害によって「そんな機能でそんなバグり方あるんだ・・・」という経験が何度もありました。それは次の開発に活かされることが多々あり、学びに繋がりました。
「他チームとの関係性を持つ」について、システム障害のようなイレギュラーな時にこそ得られるつながりがある、と書かれています。確かに普段接しないような技術チーム、セキュリティチーム、広報チームなどとやり取りをして新たなネットワークを持つことができました。
ただ、願わくばこういう方を予見して、平時に一度話しておけると更に良いですね。
最後に付け加えるならば、システム障害時に確かに学ぶことはできますが、顧客に影響が出ているものは若手に任せるにはいかず、できる人が更に経験を積んでできるようになるとなりがちです。
教育のために訓練で育成を図るか、小さい障害を経験させるなども併せて必要です。
用語
エフェメラル(儚い)チーム:予期せぬ課題に対処するために結成される一時的なチーム。
アライメント:チーム内で全員が同じ目標に向かって働いていることを確認すること。
野村浩司
野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。