東京工業品取引所のネットワークトラブル - ネットワーク管理者というお仕事

ネットワーク管理者というお仕事

元ネットワーク管理者のブログ。最初はネットワーク管理を中心に書いていましたが、最近はユーザ寄りのお話が多めです

Sponsored link 
一昨日発生した東京工業品取引所でネットワークトラブルの状況が書かれています。

 2009年5月12日午前10時30分ごろに発生した東京工業品取引所のシステムダウンは、待機系のルーターが過負荷状態に陥ったことが引き金だった(関連記事1、関連記事2、関連記事3)。待機系の異常が本番系に伝播してシステムダウンにつながった。東工取が5月13日に記者会見を開き、明らかにした。

 東工取は取引システムと取引参加者をつなぐネットワーク上に合計4台のルーターを設置している。2台が本番系で残る2台が待機系だ。本番系の2台は並行稼働しており、取引参加者との通信データを分散処理している。

 まず2台の待機系のうち1台の利用率が100%近くに達した。次に、この待機系と二重化構成を組む本番系の利用率が100%近くに上昇。2台の本番系のうち1台がダウンした。この結果、ダウンした本番系ルーターにつながる取引参加者が取引システムと通信できなくなった。ルーターの利用率は、通常状態では数%程度という。

引用元:東工取システムダウンの引き金は待機系ルーター(IT Pro)


なお、ネットワークはルータの再起動により復旧しているようですが、原因はシスコとNTTデータのエンジニアが調査中とのこと。厄介そうなトラブルですね。

因みに、もう彼是5,6年前の話ですが、私も似たような事を経験した事があります。ネットワーク導入後しばらくは問題なかったのですが、突然、本番系と待機系のが交互に切り替わる状況に。リブート後しばらくは安定したもののその後再発。苦肉の策として、ベンダー側の解析が終わるまでは待機系のL3SWの電源を切り運用していました。その時の原因はL3SWのOSのバグ。
今回の東京工業品取引所のトラブルも同じような匂いを感じるけどどうだろ?例えばSTP周りのバグとか。














管理者にだけ表示

トラックバックURL↓
http://netstaff.blog92.fc2.com/tb.php/139-6ebf1685

| ホーム |