目 录CONTENT

文章目录

内核参数优化

简中仙
2023-05-25 / 0 评论 / 0 点赞 / 81 阅读 / 0 字 / 正在检测是否收录...
温馨提示:
本文最后更新于2023-10-07,若内容或图片失效,请留言反馈。 本文如有错误或者侵权的地方,欢迎您批评指正!

Linux内核有非常多的参数,而对这些内核参数的修改会尽可能的提高内核的稳定性,并且,在业务高峰期的时候,可以保证内核尽可能的稳定高效,而不是某些非常低级的DDOS洪水就崩溃的Linux内核。总的来说,系统内核的优化是对系统稳定高效的运行的一个重要的强有力的保障。

那么,Linux的内核参数是可以按照它们的功能进行一个简单的分类的,大体分类为:网络层面,文件系统层面(也就是指的文件打开数,文件的读写性能这些参数),内存层面,内核层面。

多说一句,通常Linux系统是使用最低的内核参数,就像CPU一样,通常是降频使用的,这么做的目的无非是为了系统的稳定性,但性能会有很多的牺牲,并且,这些默认的参数仅仅是针对普通的日常运行,而生产当中,第一是需要压榨服务器的性能(也可以称为提高服务器的性能),从而保证生产活动中的很多任务能够圆满完成(比如,文件打开数如果不做优化,有的时候会非常尴尬的发现,某些程序运行不正常啦。),第二是某些安全性方面的提升(网络层面的优化可以使得服务器自身就可以有一定的网络防御,毕竟装甲厚度高一点对服务器的安全也是有一定的好处的嘛)

内核优化的惯用方法:

通常是利用调用内核参数的程序sysctl 查询出最优内核参数,然后写入 /etc/sysctl.conf 文件内的。

比如:

# sysctl -a |grep fs.file-max
fs.file-max = 52706963

这个是查询出来的文件最大打开数,而如果不在/etc/sysctl.conf 文件内定义的,默认的参数通常会是比较低的,因此,在网上可能会时不时的看到某人管理的服务器Java程序跑不动了,最后查出来是最大文件打开数超过默认值了。

max-file 表示系统级别的能够打开的文件句柄的数量。是对整个系统的限制,并不是针对用户的。

ulimit -n 控制进程级别能够打开的文件句柄的数量。提供对shell及其启动的进程的可用文件句柄的控制。这是进程级别的。

因此,针对文件打开数的限制问题,我们还需要更改这个文件:

# cat /etc/security/limits.conf |grep -v 'grep' |grep -v '^#'
* soft nofile 65535
* hard nofile 131072
* soft nproc 65535
* hard nproc 655350
* soft memlock unlimited
* hard memlock unlimited

也就是说,通过sysctl -a 命令查出来的是内核参数是适合你的服务器的最佳参数。

详细介绍:

kernel.sysrq = 0
kernel.core_uses_pid = 1
kernel.msgmnb = 65536							#默认为16384,调高
kernel.msgmax = 65536							#默认为16384,调高
kernel.shmmax = 68719476736						#以sctl -a实际查询出的为准
kernel.shmall = 4294967296						#以sctl -a实际查询出的为准
net.ipv4.ip_forward = 0							#0是关闭路由转发。VPN告别了,也是系统默认的值。所谓转发即当主机拥有多于一块的网卡时,其中一块收到数据包,根据数据包的目的ip地址将数据包发往本机另一块网卡,该网卡根据路由表继续发送数据包。这通常是路由器所要实现的功能,现在如果改成1,内核就可以做路由器的这个事了。
net.ipv4.conf.default.rp_filter = 0				#和下面这一条一对的,开启网卡多播功能,0不是特别安全。
net.ipv4.conf.all.rp_filter = 0					#reverse-path filtering,反向过滤技术,系统在接收到一个IP包后,检查该IP是否是合乎要求,不合要求的IP包会被系统丢弃。该技术就称为rp filter。0表示不启用该技术
net.ipv4.icmp_echo_ignore_all = 0 				#忽略ICMP请求。出于安全考虑,建议开启此项(当前默认值为0,开启将值设为1)。但开启后会忽略所有接收到的icmp echo请求的包(会导致机器无法ping通),建议用户根据实际组网场景决定是否开启此项。也就是0可以被ping,1禁止被ping
net.ipv4.icmp_echo_ignore_broadcasts			#和上一条一对的 系统忽略所有广播和多播地址的ICMP回显和时间戳记请求
net.ipv4.conf.default.accept_source_route = 0
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_max_tw_buckets = 6000
net.ipv4.tcp_sack = 1							#是否启用有选择的应答(Selective Acknowledgment),这可以通过有选择地应答乱序接收到的报文来提高性能(这样可以让发送者只发送丢失的报文段);(对于广域网通信来说)这个选项应该启用,但是这会增加对 CPU 的占用,一般是1,如果CPU扛不住那就0吧
net.ipv4.tcp_window_scaling = 1
net.ipv4.tcp_rmem = 10240 87380 12582912		#默认值的两倍TCP读取缓冲区,单位为字节,查看默认值
net.ipv4.tcp_wmem = 10240 87380 12582912		#默认值的两倍发送缓冲区,和本机内存大小有关,谨慎修改
net.ipv4.tcp_mem = 94500000 915000000 927000000
net.core.wmem_default = 8388608					#照着改
net.core.rmem_default = 8388608
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
net.core.netdev_max_backlog = 262144
net.core.somaxconn = 40960
net.ipv4.tcp_max_orphans = 3276800
net.ipv4.tcp_max_syn_backlog = 262144
net.ipv4.tcp_timestamps = 0
net.ipv4.tcp_synack_retries = 1 				#可适当提高到2
net.ipv4.tcp_syn_retries = 1  					#可适当提高到2
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_fin_timeout = 1
net.ipv4.tcp_keepalive_time = 30
net.ipv4.ip_local_port_range = 1024 65000		#不默认也可以
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.netfilter.nf_conntrack_max = 6553500
net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60
net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 120
net.netfilter.nf_conntrack_tcp_timeout_time_wait = 120
net.netfilter.nf_conntrack_tcp_timeout_established = 3600
net.nf_conntrack_max = 6553500
vm.overcommit_memory = 0						#当linux发现内存不足时,会发生OOM killer(OOM=out-of-memory)。它会选择杀死一些进程(用户态进程,不是内核线程),以便释放内存。0是安全稳定,如果是1,表示即使内存耗尽也不杀死任何进程,如果是2,表示即使物理内存和swap都用完了,服务器也死战到底。
vm.swappiness = 0
fs.file-max = 999999:							#这个参数表示进程(比如一个worker进程)可以同时打开的最大句柄数,这个参数直线限制最大并发连接数,需根据实际情况配置。
net.ipv4.tcp_max_tw_buckets = 6000 				#这个参数表示操作系统允许TIME_WAIT套接字数量的最大值,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。该参数默认为180000,过多的TIME_WAIT套接字会使Web服务器变慢。
注意:主动关闭连接的服务端会产生TIME_WAIT状态的连接
 
net.ipv4.ip_local_port_range = 1024 65000 		#允许系统打开的端口范围。
 
net.ipv4.tcp_tw_recycle = 1 					#启用timewait快速回收。和下面这个是一对
 
net.ipv4.tcp_tw_reuse = 1 						#开启重用。允许将TIME-WAIT 
 
sockets重新用于新的TCP连接。这对于服务器来说很有意义,因为服务器上总会有大量TIME-WAIT状态的连接。
 
net.ipv4.tcp_keepalive_time = 30:这个参数表示当keepalive启用时,TCP发送keepalive消息的频度。默认是2小时,若将其设置的小一些,可以更快地清理无效的连接(不是说的软件keepalive,是比如nginx的 keepalive参数)。
 
net.ipv4.tcp_syncookies = 1 					#开启SYN Cookies,当出现SYN等待队列溢出时,启用cookies来处理。
 
net.core.somaxconn = 40960 						#web 应用中 listen 函数的 backlog 默认会给我们内核参数的 net.core.somaxconn 限制到128,而nginx定义的NGX_LISTEN_BACKLOG 默认为511,所以有必要调整这个值。
 
注:对于一个TCP连接,Server与Client需要通过三次握手来建立网络连接.当三次握手成功后,我们可以看到端口的状态由LISTEN转变为ESTABLISHED,接着这条链路上就可以开始传送数据了.每一个处于监听(Listen)状态的端口,都有自己的监听队列.监听队列的长度与如somaxconn参数和使用该端口的程序中listen()函数有关
 
somaxconn参数:定义了系统中每一个端口最大的监听队列的长度,这是个全局的参数,默认值为128,对于一个经常处理新连接的高负载 web服务环境来说,默认的 128 太小了。大多数环境这个值建议增加到 1024 或者更多。大的侦听队列对防止拒绝服务 DoS 攻击也会有所帮助。
 
net.core.netdev_max_backlog = 262144 			#每个网络接口接收数据包的速率比内核处理这些包的速率快时,允许送到队列的数据包的最大数目。
 
net.ipv4.tcp_max_syn_backlog = 262144			#这个参数标示TCP三次握手建立阶段接受SYN请求队列的最大长度,默认为1024,将其设置得大一些可以使出现Nginx繁忙来不及accept新连接的情况时,Linux不至于丢失客户端发起的连接请求。
 
net.ipv4.tcp_rmem = 10240  87380  12582912		#这个参数定义了TCP接受缓存(用于TCP接受滑动窗口)的最小值、默认值、最大值。
net.ipv4.tcp_wmem = 10240 87380 12582912		#这个参数定义了TCP发送缓存(用于TCP发送滑动窗口)的最小值、默认值、最大值。
net.core.rmem_default = 6291456					#这个参数表示内核套接字接受缓存区默认的大小。
net.core.wmem_default = 6291456					#这个参数表示内核套接字发送缓存区默认的大小。
net.core.rmem_max = 12582912					#这个参数表示内核套接字接受缓存区的最大大小。
net.core.wmem_max = 12582912					#这个参数表示内核套接字发送缓存区的最大大小。
net.ipv4.tcp_syncookies = 1						#该参数与性能无关,用于解决TCP的SYN攻击。
fs.inotify.max_user_watches:				#表示同一用户同时可以添加的watch数目(watch一般是针对目录,决定了同时同一用户可以监控的目录数量)

内核

net.ipv4.ip_forward=1
vm.overcommit_memory=1
vm.panic_on_oom=0
fs.inotify.max_user_watches=89120
fs.file-max=52706963
fs.nr_open=52706963

k8s启用

net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-ip6tables = 1
fs.may_detach_mounts = 1
net.ipv4.conf.all.route_localnet = 1

警告

[!WARNING]
内核低于 4.1 版本需要添加 fs.may_detach_mounts=1 和 net.ipv4.tcp_tw_recycle=0

在内核低于 4.1 中,不要设置 net.ipv4.tcp_tw_recycle 这个参数为 1
,网上有不少教程没提到或者内核版本过低系统默认设置为 1

开启此参数,对于外网的 sockets 链接会快速回收。但是对于内网会导致大量的 TCP 链接建立错误。k8s使用的都是在内网,所以要禁用!设置为 0

有关 net.ipv4.tcp_tw_recycle 参数查看文章(https://cloud.tencent.com/developer/article/1683704)

参数 fs.may_detach_mounts 则是跟容器相关的。该参数如果设置为 0,会导致服务变更后旧 pod在回收时会一直卡在 Terminating 的状态,会重复出现 UnmountVolume.TearDown failed for volume 错误。

有关 fs.may_detach_mounts 参数产生的 bug 查看文章(https://github.com/kubernetes/kubernetes/issues/51835)
以及 (https://bugzilla.redhat.com/show_bug.cgi?id=1441737) 。
0

评论区