终止Linux中的defunct进程的方法指南

2016-05-06 11:41:46 youngsterxyf

Linux下进程的运作方式
每个 Linux进程在进程表里都有一个进入点（entry），核心进程执行该进程时使用到的一切信息都存储在进入点。当用 ps 命令察看系统中的进程信息时，看到的就是进程表中的相关数据。当以fork()系统调用建立一个新的进程后，核心进程就会在进程表中给这个新进程分配一个进入点，然后将相关信息存储在该进入点所对应的进程表内。这些信息中有一项是其父进程的识别码。
子进程的结束和父进程的运行是一个异步过程，即父进程永远无法预测子进程到底什么时候结束。那么会不会因为父进程太忙来不及 wait 子进程，或者说不知道子进程什么时候结束，而丢失子进程结束时的状态信息呢？
不会。因为 Linux提供了一种机制可以保证，只要父进程想知道子进程结束时的状态信息，就可以得到。这种机制就是：当子进程走完了自己的生命周期后，它会执行exit()系统调用，内核释放该进程所有的资源，包括打开的文件，占用的内存等。但是仍然为其保留一定的信息（包括进程号the process ID，退出码exit code，退出状态the terminationstatus of the process，运行时间the amount of CPU time taken by the process等），这些数据会一直保留到系统将它传递给它的父进程为止，直到父进程通过wait / waitpid来取时才释放。
也就是说，当一个进程死亡时，它并不是完全的消失了。进程终止，它不再运行，但是还有一些残留的数据等待父进程收回。当父进程 fork() 一个子进程后，它必须用 wait() （或者 waitpid()）等待子进程退出。正是这个 wait() 动作来让子进程的残留数据消失。

为了终止这些defunct进程，你有两个选择：
1.重启你的计算机
2.继续往下读...
我们先看看系统中是否存在defunct进程：

$ ps -A | grep defunct

假设得到的输出如下所示：

8328 ? 00:00:00 mono <defunct>
8522 ? 00:00:01 mono <defunct>
13132 ? 00:00:00 mono <defunct>
25822 ? 00:00:00 ruby <defunct>
28383 ? 00:00:00 ruby <defunct>
18803 ? 00:00:00 ruby <defunct>

这意味着存在6个defunct进程：3个mono进程，以及3个ruby进程。这些进程之所以存在，可能是因为应用程序写得很烂或者用户做了不常见的操作，在我这，一定是我写的mono C#程序存在严重问题 :smile: 。
现在，我们来看看这些进程的ID及其父进程ID：

$ ps -ef | grep defunct | more

以上命令的输出如下：

UID PID PPID ...
---------------------------------------------------------------
kenno 8328 6757 0 Mar22 ? 00:00:00 [mono] <defunct>
kenno 8522 6757 0 Mar22 ? 00:00:01 [mono] <defunct>
kenno 13132 6757 0 Mar23 ? 00:00:00 [mono] <defunct>
kenno 25822 25808 0 Mar27 ? 00:00:00 [ruby] <defunct>
kenno 28383 28366 0 Mar27 ? 00:00:00 [ruby] <defunct>
kenno 18803 18320 0 Apr02 ? 00:00:00 [ruby] <defunct>

UID：用户ID
PID：进程ID
PPID：父进程ID
如果你使用命令 “kill -9 8328” 尝试终止ID为8328的进程，可能会没效果。要想成功终止该进程，需要对其父进程（ID为6757）执行kill命令（$ kill -9 6757）。对所有这些进程的父进程ID应用kill命令，并验证结果（$ ps -A | grep defunct）。
如果前一个命令显示无结果，那么搞定！否则，可能你需要重启一下系统。