首页 > 网站技巧 > 服务器 > nginx > nginx健康检查

nginx中的健康检查方案

2024-01-26 14:48:16 作者：fangs39224

这篇文章主要介绍了nginx中的健康检查方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

ngx_http_proxy_module模块（自带）超时时间设置

无特别场景需求都可直接采用默认60s

语法：proxy_connect_timeout ``time``;
默认值：proxy_connect_timeout 60s;
作用域：http, server, location

该指令设置与upstream server的连接超时时间，有必要记住，这个超时不能超过75秒。这个时间Nginx与上游服务器

尝试建立连接，如果60s内都没有建立成功，则会放弃这个连接。

语法：proxy_read_timeout ``time``;
默认值：proxy_read_timeout 60s;
作用域：http, server, location

定义从后端服务器读取响应的超时。

此超时是指相邻两次读操作之间的最长时间间隔，而不是整个响应传输完成的最长时间。

如果后端服务器在超时时间段内没有传输任何数据，连接将被关闭（连接成功后_等候后端服务器响应时间_其实已经进入后端的排队之中等候处理（也可以说是后端服务器处理请求的时间））。

语法：proxy_send_timeout time;
默认值：proxy_send_timeout 60s;
作用域：http, server, location

设置将请求传输到代理服务器的超时。仅在两个连续的写操作之间设置超时，而不是为整个请求的传输。

如果代理服务器在此时间内未收到任何内容，则关闭连接。（后端服务器数据回传时间_就是在规定时间之内后端服务器必须传完所有的数据）。

语法：proxy_next_upstream error | timeout | invalid_header | http_500 | http_502 | http_503 | http_504 |http_404 | off ...;
默认值：proxy_next_upstream error timeout;
作用域：http, server, location

后端返回状态码：指定在何种情况下一个失败的请求应该被发送到下一台后端服务器

1、nginx 被动check 方法

Nginx(自带)有健康检查模块：ngx_http_upstream_module，可以做到基本的健康检查

参数：

max_fails：失败尝试最大次数；超出此处指定的次数时，server将被标记为不可用,默认为1
fail_timeout：后端服务器标记为不可用状态的连接超时时长，默认10s
backup：将服务器标记为"备用"，即所有服务器均不可用时才启用

例如：

server x.x.x.x:8080 max_fails=3 fail_timeout=30s;`
server x.x.x.x:8080 max_fails=3 fail_timeout=30s;`

说明：

代表在30秒内某一应用失败3次,认为该应用宕机,后等待30秒，这期间内不会再把新请求发送到宕机应用，而是直接发到正常的那一台，等待的这30秒时间到后再有请求进来继续尝试连接宕机应用且仅尝试1次，如果还是失败，则继续等待30秒...以此循环，直到恢复。`

缺点：

Nginx只有当有访问时后，才发起对后端节点探测。

如果本次请求中，节点正好出现故障，Nginx依然将请求转交给故障的节点,然后再转交给健康的节点处理。

所以不会影响到这次请求的正常进行。

但是会影响效率,因为多了一次转发,而且自带模块无法做到预警。

2、nginx 主动check 方法

nginx_upstream_check_module模块对后端节点做主动健康检查(淘宝开发)

主动check：心跳检测，为非业务流量，nginx本身发起健康检测请求。

注意：check模块版本和Nginx版本要求有限制。做补丁包的时候注意版本选择

check指令只能出现在upstream中：

interval:向后端发送的健康检查包的间隔。
fall:如果连续失败次数达到fall_count，服务器就被认为是down。
rise:如果连续成功次数达到rise_count，服务器就被认为是up。
timeout:后端健康请求的超时时间。
default_down:设定初始时服务器的状态，如果是true，就说明默认是down的，如果是false，就是up的。默认值是true，也就是一开始服务器认为是不可用，要等健康检查包达到一定成功次数以后才会被认为是健康的

健康检查包的类型,常用(tcp\http)：

tcp：简单的tcp连接，连接成功，就说明后端正常（网络层探测，通过发送SYN握手报文来检测服务器端口是否存活）。
http：发送HTTP请求，通过后端的回复包的状态来判断后端是否存活
不常用:ajp\ssl_hello\mysql\fastcgi
说明:(将HTTP模式的负载均衡修改为TCP模式后，负载均衡将只检查监听端口状态，不检查HTTP状态，会导致负载均衡无法实时获知HTTP应用是否出现问题。)

TCP模式配置：

upstream xxxx {
    server ip:port;
    server ip:port;    
    check interval=5000 rise=2 fall=3 timeout=1000 type=tcp;
}

HTTP模式配置：（需要提供一个健康检查的url）

upstream xxxx {
    server ip:port;
    server ip:port;    
    check interval=5000 rise=2 fall=3 timeout=1000 type=http;
    check_http_send "HEAD / HTTP/1.0\r\n\r\n"; #默认用HEAD方式 请求缺省页
    check_http_expect_alive http_2xx http_3xx;
}

说明：

每个5秒检测一次（单位为毫秒），请求2次正常则标记 realserver状态为up，如果检测 3 次都失败，则标记 realserver的状态为down，超时时间为1秒（单位为毫秒）。

check_http_send: http 请求方式如：（"GET /index.html HTTP/1.0\r\n\r\n"）注意:请求的uri不宜过大
check_http_expect_alive: 定义健康的状态码

server 中配置可界面显示后端健康状态
location /status {
check_status;
access_log off;
}

3、目前环境配置建议：为保证业务流量无影响，优先采用主动check方式

后端应用未配置(提供)健康检查url情况

upstream xxxx {
    server ip:port;
    server ip:port;    
    check interval=5000 rise=2 fall=3 timeout=1000 type=tcp;
}

后端提供健康检查url 情况

upstream xxxx {
    server ip:port;
    server ip:port;    
    check interval=5000 rise=2 fall=3 timeout=1000 type=http;
    check_http_send "HEAD /url HTTP/1.0\r\n\r\n"; # /url指提供健康检查的url
    check_http_expect_alive http_2xx http_3xx;
}

server 中配置。用于界面显示后端健康状态
location /status {
check_status;
access_log off;
}

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。