だめねこ飼育日誌 By suteneko
リネ2関連で検索して来たかたはこっちのwikiのほうがいいかも // プロフィール


2005-01-12 (Wed)

[サーバ] 落ちた [16:09]

mixi日記よりコピペ

2005年01月12日 11:43 鯖落ち
ごめんちゃい (T_T)


ssh で繋げたときのサーバからの返信

Received disconnect from 218.44.240.166: Could not create socket pairs: Too many open files in system

みんな負荷かけすぎです(泣)


ホスティングやってるとこに連絡とって再起動まち…

今朝あたりから反応が無かった模様です。以下が最初のメッセージ

Jan 12 07:38:02 mike kernel: kern.maxfiles limit exceeded by uid 2018, please see tuning(7).

UID=2018 の人が原因てわけじゃなくて、最初に出たのが偶然2018だった模様。これ以後、いろんなIDで同じメッセージが続いてました。




私がそれを知ったのは今朝。ssh で繋ごうとするも繋がらない。ログインできずに原因が不明。いきなり切れるから、sh が駄目になってるのかなー?とか思って、/bin/sh を別のとこに置いて ssh -v user@hostname /home/user/sh とかやってみる。すると…

Received disconnect from 218.xxx.xxx.xxx: Could not create socket pairs: Too many open files in system

ぐはぁ。




とりあえず現状報告せねば。mixi に鯖落ちメッセージを書き込み、IRC で現状を喋る。サーバ置かせてもらってるとこの人の携帯にメールを入れる。そして、常に screen で端末開いてそうなアレゲな人(笑)にメッセで話しかけてみるも…

ld-elf.so が /lib/libutil.so を load できずに su が起動できないらしい (T_T)

ぐへっ =□○_




FreeBSD は operator group に入ってると su/sudo しなくても shutdown がかけられる。私は operator group に入ってるので、リモートから…

$ ssh -1 -v user@servername -T /sbin/shutdown -r now
(略)
debug1: Trying RSA authentication with key '/home/user/.ssh/identity'
debug1: Received RSA challenge from server.
Enter passphrase for RSA key '/home/user/.ssh/identity':
debug1: Sending response to host key RSA challenge.
debug1: Remote: RSA authentication accepted.
debug1: RSA authentication accepted by server.
debug1: Sending command: /sbin/shutdown -r now
debug1: Entering interactive session.
Received disconnect from 218.xxx.xxx.xxx: Could not create socket pairs: Too many open files in system
debug1: Calling cleanup 0x80xxxxxx(0x0)
$

ぐへっ。直接たたき込んでも駄目ぽ… =□○_




あとでもう1回試したらうまく shutdown できました。プロセスいくつか落ちたか終わったかしたのかな?

debug1: RSA authentication accepted by server.
debug1: Sending command: /sbin/shutdown -r now
debug1: Entering interactive session.
shutdown: [pid 72104]
Shutdown NOW!
Shutdown NOW!

System shutdown time has arrived
debug1: Transferred: stdin 0, stdout 66, stderr 22 bytes in 2.6 seconds
debug1: Bytes per second: stdin 0.0, stdout 25.4, stderr 8.5
debug1: Exit status 0
$




うちのサーバ、それほど非力じゃないと思うんだけどねぇ。kern.maxproc: 6164, kern.maxfiles: 12328 になってました。結構おおきい値だと思うんだけど、使い果たしちゃうらしい。負荷が高いひとが何人か居るから? とりあえず httpd.conf で、StartServers とか MaxClients だけじゃなくて RLimit 系の制限かけました。現状の制限値が、CPU 10/15, Memory 64M/128M, NPROC 256/384 (soft limit/hard limit) です。これでしばらく様子見して、駄目そうなら login.conf での制限とかも考えるかも。負荷が高い人には、プロセスの見直しや、サーバ増強の(金銭的な)お願いをすることになるかもしれません。




あーんもうやだーーー。トラブル知ったとき、最初はもう泣きそうでした。うちのサーバ、なんでトラブル多いの〜〜? (泣) わたしなんか悪いことした?? うわぁぁぁぁん(号泣)

[サーバ] 復帰 [25:39]

名無し猫さん (2005-01-12 (Wed) 19:56)
たぶんはずれかーねるじゃないですかね。雰囲気が。

ホントにそうっぽいですね…(泣) ハズレ…

やっぱり正月には巫女さんにお祓いしてもらうべきだったか… (ぉぃ




あのあともう1回落ちました。たぶん同じ現象。しばらく httpd を止めて負荷を下げた上で buildworld/installworld/buildkernel/installkernel して、復帰。監視しつつ動かしてます。

負荷が高いときに zombie が大量に発生って現象を目撃したんですが、これが原因でしょうか。wait 系のシステムコールがうまく動いていなかったのか、そもそもコールされてなかったのか、の、どっちかでしょう。update した時期的に、apache(httpd), cgid, kernel のどれかが原因だと思うのですが、今回の作業では apache は変更なし、kernel 変更ありです。これで回復したら kernel の仕業で確定ってことで…

本日のツッコミ

_ 名無し猫さん [たぶんはずれかーねるじゃないですかね。雰囲気が。 ] (2005-1-12 (Wed) 19:56)

_ いぬぴー [鯖についてはわかんないけどさ、「ぐへっ」は可愛くないから却下〜。 ] (2005-1-13 (Thu) 1:56)

_ 須杷茉梨 [いぬぴーちゃん!ならば、「くぽっ」ってのはどうかしら? ] (2005-1-13 (Thu) 4:4)

_ いぬぴー [くぽってなんだか穴にはまる音みたいねー。でも可愛いからグッ☆ ] (2005-1-13 (Thu) 23:52)