2012年2月5日日曜日

Windowsの497日問題について

冠に「基盤系SEおたまじゃくしによる仕事メモと趣味語り」とか書いちゃってる以上、こりゃブログに書くしかねーだろって事象に遭遇したので書いておきます。

全部自分でやったみたいな書き方に見えちゃってますけど、全然そんなことはないですので(-ω-;)


ブレードサーバにHyper-Vでクラスタ構成して、それとは別にドメインコントローラがある構成のシステムを担当してまして、そのシステムで起こったことです。



ある日突然、認証系が動かなくました。
当然、ドメインコントローラに不具合起きたと思い、調べていくと、ドメインコントローラの中身がごっそり消えていました。

AD周りの管理ツールが開かない。
「Active Directoryサイトとサービス」も「Active Directoryドメインと信頼関係」も「Active Directoryユーザーとコンピューター」もどれも開かない。
「Active Directory管理センター」は開きはするけど、ドメインに接続されていない。


時を同じくして、フェールオーバークラスタマネージャ上で、特定のホストOSの状況が見られなくなりました。当然配下のゲストOSは葬式ムード。
"RPC サーバーが使用できません。"とのこと。やっぱり認証系。というか名前解決。

このときの焦りっぷりったらハンパない。


影響範囲も広がってきたので、ADのサービスを再起動することに。
 → 変わりません。

サービスでダメならドメインコントローラの再起動。
 → 変わりません。

と思いきや、30分ぐらいしたらActive Directoryは復活しました。
このときの「?」の数ったらハンパない。


ADは復活するも、フェールオーバークラスタマネージャでの不具合は変わらず。
待機系ブレードに移動していたゲストOSを元のブレードに戻そうとするも、Live Migration先のサーバとして出てこない。
ホストOSから、ゲストOSのデータが格納されているストレージが見えてない。
ゲストOSの仮想NICがおかしくなってる。

対象のブレードサーバを再起動するも、復活せず。

もちろんハード障害の可能性も考慮したけれども、ハードには全く問題なし。
八方塞がり('A`)




そんな中、同時進行で調査をしていた方から、「pingは飛ぶけどファイル共有とか認証系とかの通信が軒並みできてないっぽい。TCPのセッションが残りまくってる。」との情報が。

どうやら第3層はOKだけど第4層以上がダメっぽい感じ。
セッションが残りまくってるのはホントに異常な数。
NICの無効化、有効化でセッションはクリアされるようである。


なんとなく現象はわかってきたけど、原因が一切不明。
再起動をしても直らなかったこともあり、対策も不明。
辺りを漂う絶望感・・・。



ただ、ネットワークがおかしいというのはわかっていたので、調査を進めて行った結果、
あるMicrosoftの文書が見つかりました。

TIME_WAIT 状態であるすべての TCP/IP ポートからシステム ・ スタートアップで Windows Vista、Windows 7、Windows Server 2008 および Windows Server 2008 R2 の 497 日後閉じ

タイトルからして頭悪い。機械翻訳された中身も頭悪い感じです。
英語の原文読んだ方がわかりやすい。

つまるところ、497日以上Windows Server 2008起動してると、そこからセッション切れずに溜まっていってポートが枯渇するよってお話。(R2やWindows Vista、7でも同じ)
有名な話らしく、497日問題って言われてるそうです。
OSでオーバーフローっていう初歩的なバグ。しかもずっと前のバージョンから分かってること。
対応しとけよ・・・。


というわけで、原因がわかりました。おかしくなったのは510日ぐらい経過してのことでした。
とは言えども、再起動しても復旧しなかった実績もあり、どうしようか考え倦ねていましたが、
思い切ってWindows Server 2008で動いているサーバを全台再起動。

結果。



大復活!!!



このときの胸のなでおろしっぷりったらハンパない。


ちなみに修正パッチは出てるようですが、Windows Update等では適用されないようです。
こんな大事なの含めろよって思いますが、個別パッチを当てるしかありません。
今後構築するWindows Server 2008は構築時にこれを当てておくことにします。
今まで構築したやつも見なおさないとな・・・。
まぁ、あれです。定期的な再起動はやっぱり重要ってことです。


ブレードになっても、仮想になっても「困ったときの再起動」は健在ですね。

0 件のコメント:

コメントを投稿