2007年06月の記事 - ネットワーク管理者というお仕事

ネットワーク管理者というお仕事

元ネットワーク管理者のブログ。最初はネットワーク管理を中心に書いていましたが、最近はユーザ寄りのお話が多めです

Sponsored link 
朝まで生テレビを見ながらこの記事を書いています。

今日の朝生は年金問題がテーマなのですが、途中、なぜか話はシステムの問題の話に。
レガシーシステムだとかCOBOLだとか。。。
こういう言葉を政治家の方の口から聞くとは・・(;´▽`A

こういう議論を聞いているとトラブル後の情報システム部門内での対策会議を思い出します。こんな議論をしていたら情シス内でも「そんな細かい話はここの場ですることではない!」って怒られそうですがね^^;
国会でもこんな議論をしているのか・・と想像すると溜め息が出てきます。

やれやれ。
関連記事
ITProの記事を読んでいたら入力ミス関連の記事が掲載されていました。

  NTT東のフレッツ・トラブル,「ルート再計算により・・・」の真相(ITPro)

この記事の2ページ目に5月23日に起きたひかり電話のトラブルの原因について書かれているのですが、
本来、コマンド引数に小文字を入力すべきところを大文字を入れてしまい障害になったとか。
しかもそれが現場の担当に知らされていなかったらしいです。
現場の担当者は可哀想に^^;

しかし、大文字/小文字を間違えるとコマンドが入らなかったり、認証されないというなら分かりますが、それで障害になるって一体どんなコマンドなんでしょう。
このようなコマンドがある機器は使いたくないですね(;´▽`A
まあ、事前に分かっていれば、ですがね・・・
関連記事
前回、ダブルチェックをすぐ導入できたと偉そうな事を書いてしまいましたが、すぐ導入出来たのは”実際にトラブルが起きた”という事実が皮肉にも強く後押しをしてくれたから、と補足させて頂きます。

実際、導入時も作業負担という観点で反対意見はありましたし、導入後も数年経つとトラブルを経験していない担当者や責任者等から「面倒」、「無駄」という意見がちらほら出てきました。そうなると形骸化という問題も出てきます。こういう運用改善努力は導入も難しければ維持も難しいのです。

ただしここで難しいと言っているのは、私が運用管理プロセスやサービスレベルを明確化出来ていなかったという背景もあります。根本的には組織運営全体の考え方から改善していかなければならなかったのでしょう。そうすれば自ずと費用の問題も解決できるはずです。ここら辺が現場叩き上げの私の弱いところです。

と書いたところで、ITIL(Information Technology Infrastructure Library)の勉強でもしてみようかと思いました。
恥ずかしい話ですが、ちゃんと勉強した事ないんですよね。雑誌などでは読んではいるのですが・・・^^;

お勧めの本があったら教えてください。なるべく安いので・・m(_ _; )m

関連記事
前回、年金の記事で入力ミスや操作ミスの話をしましたが、ネットワークやサーバの設定の際もこのような人為的ミスはつきものです。時には些細なミスが大きなトラブルに繋がる事も。

実は私も設定ミスで大きな障害を起こしてしまった事が過去にあります。しかもそれが経験した中で一番大きなトラブルとなりました。

間違った設定をしてしまったのはFW(ファイアウォール)のルール設定。とある通信を遮断する設定をしていたのですが、指示書の読み間違いで遮断する必要の無い正常な通信を遮断してしまいました。それが運悪く業務への影響が大きい通信で、素早く復旧はさせたものの始末書を書く事に・・・orz
(実際に設定ミスをしたのは私ではなく設定をお願いしていた派遣社員さんだったのですが、結果責任はありますので^^;)

その時にミスの原因と対策を色々と考えた訳ですが、最も効果がありすぐに導入できた対策がダブルチェック。設定後、最後の設定反映前に必ず私がチェックするようにしました。今考えればやって当たり前の事なんですが、私が入社する前から日常的に行なわれていた作業だった事もあり、トラブルが起きる前はこの作業でダブルチェックをしようと思った事はありませんでした。私自身、気の緩みと責任意識の欠如があったのでしょう。

なお、ダブルチェックを導入した大きな理由に現状の把握という目的もありました。実際に現場に触れてみないと分からない事も沢山ありますからね。特に運用のようにルーチン化された業務は外からでは実態が分からないものです。

最近しばしば耳にする不祥事や事故のニュース。
決して他人事ではありません。



関連記事
ユーザーインターフェースを持つシステムやプログラムを設計する上で必ず考慮しなければならないのが、ユーザの入力ミスや操作ミス。基本中の基本と言われてしまえばそれまでですが、実際に設計してみるとこれらのミスは簡単には防げない事が分かります。

一番の問題点は人の慣れや過信、怠けといった心理的なもの。例えば良く見かける対策に、利用者が入力した文字を次の画面で表示して確認を求める、といったものがあります。勿論効果は大きいのですが、同じ作業を1日に何度も繰り替えすような場合はどうでしょう?いくら我慢強い方でも慣れるにつれチェックは次第に甘くなっていきますよね。また、入力ミスに対して入力者が何の責任も問われないとしたらどうでしょう。中には怠けて確認を怠る人も出てきますよね。

なお、ここで”何の責任も問わない”と書きましたが、入力したデータのチェックをする人間が居ない場合やチェックシステムが無い場合も同様です。

例えば、今回問題となった年金のデータ移行の場合はどうでしょう。担当者が名前を読み間違えて入力したとします。そもそも読み間違えている訳ですから、入力した文字を表示して確認を求めても担当者は正しいと判断してしまいますよね。予めシステム側に正しいデータが入力されている訳ではありませんので、システム側によるデータ照合も不可能です。このような場合、他者によるダブルチェックが有効ですが、ダブルチェックには人件費の問題が常につきまといます。入力するデータの量も膨大だったでしょうから、ダブルチェックをするとなると時間も掛かったでしょう。それにダブルチェックでも慣れや過信はありますから漏れは出てきます。

とまあ難しいという話ばかりを書いてしまいましたが、今回の年金問題の場合に関して言えば、データ移行完了時に全加入者に通知なり新しい年金手帳なり出していれば防げたのでは?と思っています。そうすれば加入者側が確認者の役割を果たしてくれますから。コストやシステム上の問題でもあったんですかね?

それとも組織上の・・・(ry

関連記事
私事ですが、液晶ディスプレイを新しく購入してみました。

購入したのはLG電子のL204WT-SF。
20.1inch、WSXGA+で価格は26,800円(税込み,送料込み)。

別のブログにレビューを書きましたのでご興味のある方はどうぞ。

 おすすめショップ・おすすめサイト情報局

液晶ディスプレイも随分安くなりましたね。
関連記事
少し古いニュースですが、GoogleがHDDの故障率に関する検証結果を発表しました。

 [Technobahn 2007/2/20] ハードディスクは高温で利用しても故障は発生しない、Googleが検証結果を発表

これまでは、利用頻度が高かったり高温下で使われるような場合、HDDが故障しやすい、
と言われてきましたが、この記事によると因果関係は見出されなかったようです。
なお、Googleが2001年から6年間で購入したHDDが10万台にのぼるそう。
そこから出てきたデータですから下手な論文より信じられますね。

ちなみに、Googleはデータをバックアップメディアに退避させないでHDDだけで管理しているとか。
しかも一般ユーザが使うようなHDDだそうで。
もし全てのデータがそうだとしたら個人的にはこちらの方が驚きです。



関連記事
MRTG(The Multi Router Traffic Grapher)は、オープンソースのネットワーク監視ツール。

ネットワーク監視といっても死活監視は出来ませんが(使い方によっては出来ない事はありませんが・・・)、
ネットワーク機器やサーバのリソース状況(トラフィック状況やCPU負荷など)をグラフ化する事
が出来ますので、リソース管理において非常に便利なツールです。
障害が発生した際の切り分けにも威力を発生しますね。

ちなみに、プロバイダが提供するトラフィック情報のページ等でも、MRTGのグラフが
しばしば使われていますので、一般の方でも目にしたことがあるかもしれません。

なお、MRTGはSNMP(Simple Network Management Protocol)と呼ばれるプロトコルを用い監視対象から情報を取得する為、
監視対象の機器でSNMPをサポートしている必要があります。
また、機器や機種により取得出来る情報が異なりますのでご注意下さい。

MRTGに関する詳細な情報及びMRTGの入手は下記公式サイトでどうぞ↓

  MRTG日本語公式サイト http://www.mrtg.jp/

関連記事
雷の音を良く聞く季節になりました。
この季節に怖いのが突然の停電や過電流によるネットワーク機器やサーバの故障。
特に懸念されるのはサーバのHDDのクラッシュです。

その対策として有効なのがUPS(無停電電源装置)。
UPS(無停電電源装置)は、停電や電圧変動が発生した際に、内部のバッテリー等で電力を供給してくれる装置です。
停電が長時間に及ぶと電力供給は絶たれますが、サーバやネットワーク機器をシャットダウンしたり、非常用電電に切り替えたりする時間を稼ぐ事くらいは出来ますので、機器の故障を防ぐ事が出来るというわけです。
また、雷サージの機能を持っているUPSを選べば落雷による過電流対策も出来ます。

UPSといえば企業で導入するのがもっぱらでしたが、最近では家庭で導入するような小型の
ものまであります。

【送料無料】【在庫目安:あり】APC SurgeArrest 雷ガードタップ+電源バックアップ [BE325-JP]

少し昔なら「なんで家庭で・・・」という感じでしたが、最近だとHDD搭載のレコーダが主流に
なってきましたから案外必要かもしれませんね。


ついでにこれは企業で導入するようなラックマウントタイプのUPS。
いずれもUPSでメジャーなAPC製です。
(今や楽天でも買えるんですね^^;)

【ポイント5倍!6/8 09:59まで】SUA750RMJ1UB【送料無料】【在庫目安:あり】APC Smart-UPS 750R...

なお、UPSに搭載されているバッテリーには寿命がありますので定期的に交換が必要です。
定期的に交換しないとUPSを入れている意味がありませんのでご注意を!


関連記事
過去に書いたアウトソーシングの記事を読んでいて、ちょっと追記したい事があったので書きます。

アウトソーシングするか、自社で管理していくかを検討する上での検討ポイントですが、もし独自に管理をしていくならば、あなたが会社を突然辞めたとしてもどうにかる管理体制やネットワーク構成を整えていくべきです。

恐らくあなたが優秀であれば優秀であるほど、独自にネットワークを管理した方がコストは遥かに安いと思うはずです。実際そうでしょう。以前、私がアウトソーシングを検討した際、複数の業者から見積と提案をお願いしましたが、驚くような金額でしたし、委託できる範囲も非常に限られたものでした。ただ一方で、
それはあなたがいるという前提になりたっていないか?
という事も考えるべきです。後輩を育てるという事も簡単ではありません。人を育てるにはある程度の人の循環が必要ですが、社内ネットワークという限られたフィールドではそれはなかなか難しい事です。

続いてアウトソーシングについて。
アウトソーシングするならばアウトソーシング先をいつでも切り替えられるようしておくべきです。一社に依存すると必ずコストに跳ね返ってきますし、互いに甘えが生まれます。互いに依存した関係ではよく言うWinWinの関係になんてなれませんしね。いつでも切り替えられないくらいなら自社で管理した方が良いというのが個人的な意見です。


以上偉そうな事を書きましたが、私自身未だ自分の考えを整理できていないというのが正直なところ。そんな偉い事をいえる立場の人間でもないですしね^^;
ただ本音を言わせてもらうと、自社で管理していくというのが自分の理想だったりします。その方が可能性が大きいですし、何より人間味があるじゃないですか。
関連記事
前回の続き。

バグがあったのは1台ウン十万もするL2SW。
どんなバグかというと、”ポートに一定以上のトラフィックが流れ込むとスパーニングツリーが動作しなくなる”というもの。スパツリーが動作しなくなるわけですので、当然ループが発生します。ループが発生すれば、、当然大トラブルです。

私が管理していたネットワークでそのバグが発動したのは、丁度有給を取った日^^; 朝起きてぼけーっとしてたら電話で突然呼び出されたのを覚えています。

バグを発動したトラフィックの送信元は皮肉にもウィルス感染したPC。世界的にもウィルスが大量発生した時期だったので、呼び出しの電話では、ウィルスの大量発生によるネットワークのダウンという話でした。

しかし、いざ会社に来てみてMRTGやログを確認すると、なぜかバックアップのポートにもトラフィックが大量に流れているし、スパツリーのエラーが吐かれまくっている状態。そこで試しにバックアップ系のポートを閉塞してみると、、見る見るうちにトラブルは収束するじゃありませんか^^;

大変だったのはこの後。上への説明から関係各所への謝罪。一方では、ベンダーを呼んでなぜループが発生したのかの解明。バグが分かったら分かったで、問題のあるSWのOSを全て入れ替え。
OSの入れ替えといっても対象SWが数十台もありましたから、休日を2日使ってやっとの状況でした。もう二度とあんな経験はしたくありませんね。

以上長くなってしまいましたが、これが私が実際に経験したバグが原因のネットワークトラブルの話です。このようなトラブルを回避するいい方法があればいいのですが、導入前のリサーチと導入時のテストをしっかりする、といった基本的な事しか思い浮かびません。
一方でこれだけ技術の進歩が早く且つ低価格化している現状を考えると、、ネットワークエンジニアや管理者の苦悩は増すばかりです・・・orz

関連記事
最近、ひかり電話の障害の話を良く耳にしますが、先日の光電話の障害はルータのソフトウェアにバグが原因だったようです(詳しくは朝日新聞で)。

このバグによるトラブルって結構やっかいなんですよね。
事前にバグがある事が分かれば、勿論そのような機種は採用しないんですが、
導入した後でバグが見つかる事も結構多いんですよ。
ですから新機種が出たとき等はある程度実績が出来た段階で導入するようにはしているのですが、
ベンダーさんが
「いや~もう結構入れていますけどトラブルはありませんよ」
と言う機種でも結構でかいバグが見つかったりする事があります。

まあ、ネットワークの進化がこれだけ早いにも関わらず、機器の値段は下がっていますしね。
ネットワーク機器を製造する側にしても品質を高める余裕が無いと言ったところなんでしょうか。


ちなみに私もネットワーク機器のバグが原因で大きなトラブルを経験した事があります。
バグを出した機種も発売されてから結構経つ機種だったのですが、バグが見つかった
のは実際に導入してからでした。

この話はまた明日。


関連記事
| ホーム |