close wait是什么

2017-06-01

close wait是什么

等待结束

浅谈CLOSE WAIT

TCP 有很多连接状态，每一个都够聊十块钱儿的，比如我们以前讨论过TIME_WAIT 和FIN_WAIT1，最近时不时听人提起 CLOSE_WAIT，感觉有必要梳理一下。

所谓 CLOSE_WAIT，借用某位大牛的话来说应该倒过来叫做 WAIT_CLOSE，也就是说「等待关闭」，如果你还不理解其含义，可以看看 TCP 关闭连接时的图例：

TCP Close

不要被图中的 client 和 server 所迷惑，你只要记住：主动关闭的一方发出 FIN 包，被动关闭的一方响应 ACK 包，此时，被动关闭的一方就进入了 CLOSE_WAIT 状态。如果一切正常，稍后被动关闭的一方也会发出 FIN 包，然后迁移到 LAST_ACK 状态。

通常，CLOSE_WAIT 状态在服务器停留时间很短，如果你发现大量的 CLOSE_WAIT 状态，那么就意味着被动关闭的一方没有及时发出 FIN 包，一般有如下几种可能：

程序问题：代码层面遗漏或者死循环之类的，没有 close 相应的 socket 连接。

响应太慢：对方已经 timeout 了，本方还忙于耗时逻辑，导致 close 被延后。

BACKLOG 太大：队列堆积严重，导致多余的请求来不及消费就被关闭了。

如果遭遇了 CLOSE_WAIT 故障，那么需要立刻通过「netstat」或者「ss」命令来判断 CLOSE_WAIT 连接是哪些进程引起的，如果是我们自己写的一些程序，比如用 HttpClient 自定义的蜘蛛，那么八九不离十是忘记了 close 相应的 socket，如果是一些使用广泛的程序，比如 Tomcat 之类的，那么不太可能是它们自身的 BUG，更可能是响应速度太慢或者 BACKLOG 设置过大导致的故障。

此外还有一点需要说明：按照前面图例所示，当被动关闭的一方处于 CLOSE_WAIT 状态时，主动关闭的一方处于 FIN_WAIT2 状态。那么为什么我们总听说 CLOSE_WAIT 状态过多的故障，但是却相对少听说 FIN_WAIT2 状态过多的故障呢?这是因为 Linux 有一个「tcp_fin_timeout」设置，控制了 FIN_WAIT2 的最大生命周期。坏消息是 CLOSE_WAIT 没有类似的设置，如果不重启进程，那么 CLOSE_WAIT 状态很可能会永远持续下去;好消息是如果连接开启了 keepalive机制，那么可以通过对应的设置来清理无效连接，不过 keepalive 是治标不治本的方法，还是应该对照前面的解释找到问题的症结才对。

本来想多写点的，但是着急下班回家，就写到这吧，结尾推荐两个案例：

PHP升级导致系统负载过高问题分析

又见CLOSE_WAIT

CLOSE WAIT状态的生成原因

首先我们知道，如果我们的Client程序处于CLOSE_WAIT状态的话，说明套接字是被动关闭的!

因为如果是Server端主动断掉当前连接的话，那么双方关闭这个TCP连接共需要四个packet：

Server ---> FIN ---> Client

Server <--- ACK <--- Client

这时候Server端处于FIN_WAIT_2状态;而我们的程序处于CLOSE_WAIT状态。

Server <--- FIN <--- Client

这时Client发送FIN给Server，Client就置为LAST_ACK状态。

Server ---> ACK ---> Client

Server回应了ACK，那么Client的套接字才会真正置为CLOSED状态。

我们的程序处于CLOSE_WAIT状态，而不是LAST_ACK状态，说明还没有发FIN给Server，那么可能是在关闭连接之前还有许多数据要发送或者其他事要做，导致没有发这个FIN packet。

原因知道了，那么为什么不发FIN包呢，难道会在关闭己方连接前有那么多事情要做吗?

elssann举例说，当对方调用closesocket的时候，我的程序正在调用recv中，这时候有可能对方发送的FIN包我没有收到，而是由TCP代回了一个ACK包，所以我这边套接字进入CLOSE_WAIT状态。

所以他建议在这里判断recv函数的返回值是否已出错，是的话就主动closesocket，这样防止没有接收到FIN包。

因为前面我们已经设置了recv超时时间为30秒，那么如果真的是超时了，这里收到的错误应该是WSAETIMEDOUT，这种情况下也可以主动关闭连接的。

还有一个问题，为什么有数千个连接都处于这个状态呢?难道那段时间内，服务器端总是主动拆除我们的连接吗?

不管怎么样，我们必须防止类似情况再度发生!

首先，我们要保证原来的端口可以被重用，这可以通过设置SO_REUSEADDR套接字选项做到：

重用本地地址和端口

以前我总是一个端口不行，就换一个新的使用，所以导致让数千个端口进入CLOSE_WAIT状态。如果下次还发生这种尴尬状况，我希望加一个限定，只是当前这个端口处于CLOSE_WAIT状态!

在调用

sockConnected = socket(AF_INET, SOCK_STREAM, 0);

之后，我们要设置该套接字的选项来重用：

/// 允许重用本地地址和端口:

/// 这样的好处是，即使socket断了，调用前面的socket函数也不会占用另一个，而是始终就是一个端口

/// 这样防止socket始终连接不上，那么按照原来的做法，会不断地换端口。

int nREUSEADDR = 1;

setsockopt(sockConnected,

SOL_SOCKET,

SO_REUSEADDR,

(const char*)&nREUSEADDR,

sizeof(int));

教科书上是这么说的：这样，假如服务器关闭或者退出，造成本地地址和端口都处于TIME_WAIT状态，那么SO_REUSEADDR就显得非常有用。

也许我们无法避免被冻结在CLOSE_WAIT状态永远不出现，但起码可以保证不会占用新的端口。

其次，我们要设置SO_LINGER套接字选项：

从容关闭还是强行关闭?

LINGER是“拖延”的意思。

默认情况下(Win2k)，SO_DONTLINGER套接字选项的是1;SO_LINGER选项是，linger为{l_onoff：0，l_linger：0}。

如果在发送数据的过程中(send()没有完成，还有数据没发送)而调用了closesocket()，以前我们一般采取的措施是“从容关闭”：

因为在退出服务或者每次重新建立socket之前，我都会先调用

/// 先将双向的通讯关闭

shutdown(sockConnected, SD_BOTH);

/// 安全起见，每次建立Socket连接前，先把这个旧连接关闭

closesocket(sockConnected);

我们这次要这么做：

设置SO_LINGER为零(亦即linger结构中的l_onoff域设为非零，但l_linger为0)，便不用担心closesocket调用进入“锁定”状态(等待完成)，不论是否有排队数据未发送或未被确认。这种关闭方式称为“强行关闭”，因为套接字的虚电路立即被复位，尚未发出的所有数据都会丢失。在远端的recv()调用都会失败，并返回WSAECONNRESET错误。

在connect成功建立连接之后设置该选项：

linger m_sLinger;

m_sLinger.l_onoff = 1; // (在closesocket()调用,但是还有数据没发送完毕的时候容许逗留)

m_sLinger.l_linger = 0; // (容许逗留的时间为0秒)

setsockopt(sockConnected,

SOL_SOCKET,

SO_LINGER,

(const char*)&m_sLinger,

sizeof(linger));

总结

也许我们避免不了CLOSE_WAIT状态冻结的再次出现，但我们会使影响降到最小，希望那个重用套接字选项能够使得下一次重新建立连接时可以把CLOSE_WAIT状态踢掉。

我的意思是：当一方关闭连接后，另外一方没有检测到，就导致了CLOSE_WAIT的出现，上次我的一个朋友也是这样，他写了一个客户端和 APACHE连接，当APACHE把连接断掉后，他没检测到，出现了CLOSE_WAIT，后来我叫他检测了这个地方，他添加了调用 closesocket的代码后，这个问题就消除了。

如果你在关闭连接前还是出现CLOSE_WAIT,建议你取消shutdown的调用，直接两边closesocket试试。

另外一个问题:

比如这样的一个例子：

当客户端登录上服务器后，发送身份验证的请求，服务器收到了数据，对客户端身份进行验证，发现密码错误，这时候服务器的一般做法应该是先发送一个密码错误的信息给客户端，然后把连接断掉。

如果把

m_sLinger.l_onoff = 1;

m_sLinger.l_linger = 0;

这样设置后，很多情况下，客户端根本就收不到密码错误的消息，连接就被断了。

出现CLOSE_WAIT的原因很简单，就是某一方在网络连接断开后，没有检测到这个错误，没有执行closesocket，导致了这个状态的实现，这在TCP/IP协议的状态变迁图上可以清楚看到。同时和这个相对应的还有一种叫TIME_WAIT的。

另外，把SOCKET的SO_LINGER设置为0秒拖延(也就是立即关闭)在很多时候是有害处的。

还有，把端口设置为可复用是一种不安全的网络编程方法。

能不能解释请看这里

//blog.csdn.net/cqq/archive/2005/01/26/269160.aspx

再看这个图：

断开连接的时候，

当发起主动关闭的左边这方发送一个FIN过去后，右边被动关闭的这方要回应一个ACK，这个ACK是TCP回应的，而不是应用程序发送的，此时，被动关闭的一方就处于CLOSE_WAIT状态了。如果此时被动关闭的这一方不再继续调用closesocket,那么他就不会发送接下来的FIN，导致自己老是处于CLOSE_WAIT。只有被动关闭的这一方调用了closesocket,才会发送一个FIN给主动关闭的这一方，同时也使得自己的状态变迁为LAST_ACK。

比如被动关闭的是客户端。。。

当对方调用closesocket的时候，你的程序正在

int nRet = recv(s,....);

if (nRet == SOCKET_ERROR)

{// closesocket(s);return FALSE;}

很多人就是忘记了那句closesocket，这种代码太常见了。

我的理解，当主动关闭的一方发送FIN到被动关闭这边后，被动关闭这边的TCP马上回应一个ACK过去，同时向上面应用程序提交一个ERROR，导致上面的SOCKET的send或者recv返回SOCKET_ERROR，正常情况下，如果上面在返回SOCKET_ERROR后调用了 closesocket,那么被动关闭的者一方的TCP就会发送一个FIN过去，自己的状态就变迁到LAST_ACK.

close wait是什么

相关话题