Co-trou-shロゴ
システム障害対応に困っているあなたに ちょっと役立つメディア

「”思いやり”のあるオンコール文化の創り方」~世界のインシデント管理~incident.io-Part3

「”思いやり”のあるオンコール文化の創り方」~世界のインシデント管理~incident.io-Part3

はじめに

英国のスタートアップ企業であるPineapple Technology Ltd様が運営するincident.ioに関連したブログ The Practical Guide to Incident Management のポイントと解説

ポイント!!

  • オンコールは仕事とプライベートの境界を曖昧にしてしまう。そのため、オンコールを創り上げていく段階で、”思いやり”(Compassionate)を持つことが重要になります。
  • オンコールプロセスは柔軟なスケジュールを組むことが重要であり、各オンコールチームが適切なスケジュールを選択できるようにするべきです。特に「対応不可時間」(Overrides)がオンコールプロセスで重要です。
  • 引継ぎ(handover)の時間の最適化が重要であり、これはシフト終了時のオンコーラーのストレスを軽減することに役立ちます。

参考:Compassionate on-call

解説

オンコールの説明で”思いやり”を中心に話始めていることは驚きました。
英語ではCompassionate On-Callと書かれていて、”思いやり”のあるオンコールと訳しました。
確かに当時オンコール対応を毎日していた私からすると”思いやりが大事だ”と胸を張って言えます!

どう思いやるかというのが「対応不可時間」(Overrides)が重要というのも他で見たことがなく驚きでした。確かに日本のオンコール体制は、毎日電話の順番を変えず、1番目に電話が鳴るのは毎日若手。という設定のところが多いように思います。
海外だと、毎週とか毎日で変更されメイン担当・サブ担当と2名を中心に構成されるオンコール体制になっていることが多いです。これは「対応不可時間」の確保をする、という考え方なのかもですね。

最後に「引継ぎ」(Handover)について書かれていて、標準的な引継ぎ時間を決めるべき、というトーンでした。これはうまくできているチームが多い印象。それより、「どんな内容を引き継ぐか、どのように効率的に引き継げるか」のほうが重要です。
私も最適解が導けているわけじゃないですが、引継ぎは引継ぎ元がヘロヘロで、チームによっては引継ぎ参加者がかなり大人数、引継ぎ漏れがあると起こすわけにはいかない、、、と内容が重要です。
ここはこのブログと意見が違うところかなーと思いました。

用語

「引継ぎ」(Handover):オンコールローテーションの一担当者から次の担当者に業務の責任を引き継ぐプロセスを指します。

執筆責任者
野村浩司
野村浩司!
「3カ月で改善!システム障害対応 実践ガイド」著者

野村浩司:金融システムの開発保守運用と改善を12年担当。7年にわたり合計約 1000 件の障害事例を分析。システム障害対応の改善では、アラートを9割削減。

                                           
  • nomura野村浩司