ITエンジニア四方山話:障害対応

  • 投稿日:
  • by
  • カテゴリ:

どーも、pingpanです。

 

今日は金曜日。

ここ最近、なかなか更新できてませんでしたが、久々四方山話です。

 

というわけで、今日も1回きりの短編モノ。

「障害対応」です。

 

ITエンジニアにとって、システムはお客様に納品して終わりではありません。(終わりの場合もありますが。)

最近の業務システムは、大体5年くらいは稼働しますので5年間は面倒を見ていかなくはなりません。

その5年のうちに、何もトラブルなく稼働してくれればいいですが、まぁそんなことはまずありません。

  • サーバが故障した
  • バグが見つかった
  • 今まで使えてたのが使えなくなった
  • なんかおかしい・・・

などなど、ホントの障害からお客様の勘違いまで多種多様に問題が起こります。

 

そんな障害の一報がはいった時には、エンジニアにとっては肝を冷やします。

で、エンジニアは何をするかというと

 

まずは、サービス確認&サービス復旧ですね。

お客様のサービスに影響はでているのか?いないのか?

この切り分けが重要です。

サービスに影響がでていないのであれば障害の原因をじっくり調査できますが、サービスに影響がでている場合はそうはいきません。

サービス復旧を優先するためにあらゆる手をつくします。

1秒でも早くサービス復旧できるかが勝負です。

 

それと同時に大切なのは、障害連絡。

つまり、しかるべき人(上司や営業など)に障害が発生した旨連絡をすることです。

特にサービスに影響がでている場合はお客様に対して適切なフォローが必要になりますので、担当営業や上司に連絡することを忘れてはいけません。

これを忘れてしまったばかりに、後々めんどくさいことになったりもします。

なので、エンジニアとしては障害対応に1秒でも多く時間を費やしたいと思うところですが、忘れずに障害連絡をしなければなりません。

ここは、もし複数の人がいれば、1人は連絡係、1人は障害対応係と役割分担ができるとなおオッケーですね。

 

これらが終わって初めて、障害の原因調査や恒久的な対応、事後処理に入ります。

 

まぁ、ひとたび何か起これば、今まで別の仕事をやっていたとしてもすべてが飛んでしまうので、疲れも倍感じてしまいますね。

 

こんな環境に身を置いてだいぶ経つので、今ではすっかり何も感じなくなってきましたが、ITエンジニアというのは日々色々なトラブルと戦っているわけでございます。

 

というわけで、今回はこのへんで。

 

以上。