先说说Linux进程调度的策略,作为LWP,各个进程都会及时调度。就算超过10000个 cpu密集型线程也能在1秒内调度数次。(8核为例)
Java使用的是Native的线程调度,因此也不会出这个问题。
C++后台更是如此。
之前怀疑是线程被挂起,但经过排查,否定了这种可能。
后来使用pidstat查看时,发现kswapd0占用cpu127,说明当时在发生swap。并且events/0 ~ events/7 同时出现。因此推测是缺少交换分区空间造成。
经过检查交换分区设置为2GB小于实际需要的大小(for Java gc)。
通过增加交换分区大小解决。
Linux调度总结:http://www.linuxdiyf.com/linux/12484.html
详细剖析Linux进程调度时机:http://www.linuxdiyf.com/linux/168.html