在Linux 上 磁盘读写过高 的 I/O 问题 导致 cpu wait 问题,这里是用一些方法找出问题。
首先使用 top 命令找出出现 cpu 中是否进程运行等待问题
# top
在%Cpu(s) 一行中 95.1 wa (例子数据)
表示cpu 中出现严重等待问题,可能导致的原因就包括读写磁盘 I/O 造成的
查找是否是 (确定上面假设)I/O阻塞问题
方法有二
方法一
上面的指标有三个需要明白
%util 111.41 利用率,说明了磁盘的读写io过高了,出现了延迟状况
await 响应时间,svctm 表示平均每次设备I/O操作的服务时间,await 和 svctm 越接近表示几乎没有I/O等待,上面差距大
r/s 117.28 读出请求数,w/s 29.32 写入请求数,说明读出次数过高
其它参数
rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候,VFS将请求发到各个FS,如果FS发现不同的读取请求读取的是相同Block的数据,FS会将这个请求合并Merge);wrqm/s:每秒这个设备相关的写入请求有多少被Merge了。
rsec/s:每秒读取的扇区数;
wsec/:每秒写入的扇区数。
rKB/s:The number of read requests that were issued to the device per second;
wKB/s:The number of write requests that were issued to the device per second;
avgrq-sz 平均请求扇区的大小
avgqu-sz 是平均请求队列的长度。毫无疑问,队列长度越短越好。
await: 每一个IO请求的处理的平均时间(单位是微秒毫秒)。这里可以理解为IO的响应时间,一般地系统IO响应时间应该低于5ms,如果大于10ms就比较大了。
这个时间包括了队列时间和服务时间,也就是说,一般情况下,await大于svctm,它们的差值越小,则说明队列时间越短,反之差值越大,队列时间越长,说明系统出了问题。
svctm 表示平均每次设备I/O操作的服务时间(以毫秒为单位)。如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢。
%util: 在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度。一般地,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁盘使用未必就到了瓶颈)。
方法二
使用 dstat ,其实他就是集成了iostat , vmstat,netstat,ifstat 等工具而已
现在确定了是 I/O 问题了,接着找出哪个进程,操作哪些文件而导致上面的原因的
同样提供两种方法
第一种、根据 linux IO 读写 epoll 机制(省略,研究中...)读写时会合理运用资源,就是某某进程在读资源,就会先sleep 一会,把cpu让给其他进程,那么阻塞的时候就会不间断的sleep 或 ps 里面 的 状态或“D”状态,所以可以用脚本找出如下可疑进程
# for x in `seq 1 1 10`; do ps -eo state,pid,cmd | grep "^D"; echo "----"; sleep 5; done
D 248 [jbd2/dm-0-8]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
----
D 22 [kswapd0]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
----
D 22 [kswapd0]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
----
D 22 [kswapd0]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
----
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
----
第二种方法使用 iotop 工具,这个可能需要安装,不是系统自带的
上面可以看到当前系统读写高的进程(已经排序)和 PID
找到 PID 号
现在已经发现是哪个进程导致的问题,跟着呢,找出磁盘上哪个文件的读写过高问题
使用 lsof 命令 最简单用法是
lsof -p 20736(pid 号)
上面的 iostat 可以看到哪个磁盘,lsof 可以找出进程控制的文件,然后找出大致是那几份文件出问题了。