ITエンジニア四方山話:たまには障害も起きとかないと・・・
2010年5月21日金曜日 23:58 | 0 Comment | 0 Trackback
Tweet
どーも、pingpanです。
今日は金曜日。
早いものでもう1週間が経ってしまいました。
というわけで、毎週金曜日は「ITエンジニア四方山話」です。
今日は1回きりの短編モノ。
「たまには障害も起きとかないと・・・」です。
先日、出張から夜に帰ってくるとお客様から1通のメールが。
どうも導入しているシステムで障害が起きていると・・・
今回の障害は、一部ユーザに限定されておりシステムが全停というわけではなかったので、対応は翌日でもよかったのですが、早めに解決しておこうと席について対応をはじめたのが21時過ぎ。
これが地獄のはじまりだった・・・
実は、このシステムかなり優秀でここしばらく全く問題なく動いていたので、ほぼほぼこのシステムにログインすることはありませんでした。
が、これがあだに。
問題を調査しようにも、あれ?これどうやってログインするんやったっけと。。。
そう、あまりに久々に触るシステムのため肝心のシステム情報が頭から抜けていたのです。
もちろんこういう時のために、情報はまとめています。
社内のファイルサーバからドキュメントを引っ張り出したり、プロジェクトまとめサイトで情報を調査したりと・・・こういうの結構時間かかるんですよね。
スタートラインに経つまでに、けっこう時間がかかってしまいました。(> <)
で、一番はまったのがステージング環境の存在。
もともと、こうした障害が発生した時のためや検証用のために、本番機とは別に開発環境を用意していたのですが、これがログインできなくなっている。
仮想サーバで本番環境と同じ構成を再現しているのですが、すべてのサーバにログインできない。
プロジェクトやってた時はログインできたはずなのに・・・
なぜ???バタバタバタバタ。。。。
おぉーー、仮想サーバのディスクがいつのまにかうまってDISK FULLになってる・・・・
原因究明にだいぶ時間をとられ、そもそも何がしたかったのか忘れてしまう始末。
よし、ステージングサーバ復旧完了!!よかったよかったって、いやいや肝心の障害の原因調査が本番やん。みたいな感じ。
ほかにも、確認作業にも少し工夫をしないと特殊な確認ができないのですが、そのやり方を忘れたりとかで、実際の障害対応をするよりも現行の構成を思い出したりステージング機を復旧したりに8割くらい時間を取られる始末。
結果、気付いたら29時を過ぎてました。。。
いつもなら、ぼちぼち起きようかとしている時間やし。
今回は、対応の迅速さは求められなかったので事なきを得ましたが、これがサービス全停止なんていう大障害だったとしたら・・・
こんなモタモタしてたらえらいことになってましたね。
ま、こうしたことが起こらないようにきっちりドキュメントの整備はしておかないといけないのですが、たまには小さな障害や作業などを作ってシステムに触れておくことも重要だなと思った一件でした。
あぁー、疲れた。
というわけで、今日は以上。
