kkamegawa's weblog

Visual Studio,TFS,ALM,VSTS,DevOps関係のことについていろいろと書いていきます。Google Analyticsで解析を行っています

忘れた頃にやってくる

ここ一週間くらい、厳しい障害報告がないな〜とのほほんとしていたら…やってきましたよ。ほかの問い合わせと一緒に(1時間以内に!)3件まとめて。もっとも致命的な障害であるお話を最優先で調査。なぜこう週末にやってくる。
相変わらず「動きませんでした」という報告しかなくてorz状態になる。「勘弁してくれよ。もうちょっと具体的に何が起こったのか報告して」と返事を返して、ログを見てみると…あれ、これ前と同じ?違うところからの同じ現象かなぁ?と思ってよく見ると…同じところから同じ現象が起こったという報告だった(前回は4月)。
そのとき対処方法をメールしたんだけれど、変更していいものかどうかわからなくて、結局何もやっていなかったんだそうだ。具体的にはTCP/IPの空きポート数の不足。多くのOSでは開放しても即時消滅するわけじゃなくて、一定時間キープするという実装になっているんだそうな。
OSのチューニングでその開放時間をある程度コントロールできるそうなのだけれど、それをやっていなかったと。接続状態の監視を一定時間で行ってこまめな再起動しようとしていたらしいのだけれど、それ違うって…業務中に再起動必要だってわかったらどうするの?いったいお客さんにどういう報告書を書くのだろうか。MOMのような管理ソフトを入れているにもかかわらず使っていないし、どうしたものか。
MetaFrameを少人数で使っていると突然切断される話とプログラムの実装に関する話もある。突然切断される話は絶対にFirewallとかルータあたりのことだと思うんだけどな〜違うと言い切っているが、かけてもいい(はず)。
Windowsのタスクスケジューラに登録するためのコマンドを用意している。「OSのが空白パスワードじゃだめって言われる。なんとかして」といわれるが、それWindowsの仕様ですから。実際に別のプログラムを登録するということをやってもらって、納得してもらう。
本日の労働は9:30〜22:30ってところ。