ネットワーク機器のバグが原因のトラブル - ネットワーク管理者というお仕事

ネットワーク管理者というお仕事

元ネットワーク管理者のブログ。最初はネットワーク管理を中心に書いていましたが、最近はユーザ寄りのお話が多めです

Sponsored link 
前回の続き。

バグがあったのは1台ウン十万もするL2SW。
どんなバグかというと、”ポートに一定以上のトラフィックが流れ込むとスパーニングツリーが動作しなくなる”というもの。スパツリーが動作しなくなるわけですので、当然ループが発生します。ループが発生すれば、、当然大トラブルです。

私が管理していたネットワークでそのバグが発動したのは、丁度有給を取った日^^; 朝起きてぼけーっとしてたら電話で突然呼び出されたのを覚えています。

バグを発動したトラフィックの送信元は皮肉にもウィルス感染したPC。世界的にもウィルスが大量発生した時期だったので、呼び出しの電話では、ウィルスの大量発生によるネットワークのダウンという話でした。

しかし、いざ会社に来てみてMRTGやログを確認すると、なぜかバックアップのポートにもトラフィックが大量に流れているし、スパツリーのエラーが吐かれまくっている状態。そこで試しにバックアップ系のポートを閉塞してみると、、見る見るうちにトラブルは収束するじゃありませんか^^;

大変だったのはこの後。上への説明から関係各所への謝罪。一方では、ベンダーを呼んでなぜループが発生したのかの解明。バグが分かったら分かったで、問題のあるSWのOSを全て入れ替え。
OSの入れ替えといっても対象SWが数十台もありましたから、休日を2日使ってやっとの状況でした。もう二度とあんな経験はしたくありませんね。

以上長くなってしまいましたが、これが私が実際に経験したバグが原因のネットワークトラブルの話です。このようなトラブルを回避するいい方法があればいいのですが、導入前のリサーチと導入時のテストをしっかりする、といった基本的な事しか思い浮かびません。
一方でこれだけ技術の進歩が早く且つ低価格化している現状を考えると、、ネットワークエンジニアや管理者の苦悩は増すばかりです・・・orz












管理者にだけ表示

トラックバックURL↓
http://netstaff.blog92.fc2.com/tb.php/28-4e550e6d

| ホーム |