一个类似于顶部的实用程序，用于监控GPU上的CUDA活动

我试图监控一个使用CUDA和MPI的进程，有没有办法我可以做到这一点，像命令“顶部”，但也监控GPU ?

当前回答

如果你只是想找到运行在gpu上的进程，你可以简单地使用下面的命令:

lsof /dev/nvidia*

对我来说，nvidia-smi和watch -n 1 nvidia-smi在大多数情况下已经足够了。有时nvidia-smi显示没有进程，但gpu内存用完了，所以我需要使用上面的命令来查找进程。

2019-10-22 12:32:00

其他回答

您可以使用监控程序glances及其GPU监控插件:

开源安装方法:sudo apt-get install -y python-pip;Sudo PIP安装[gpu] 启动:sudo扫视

它还监视CPU、磁盘IO、磁盘空间、网络和其他一些东西:

2019-02-09 20:19:08

另一种有用的监控方法是对消耗gpu的进程使用ps过滤。我经常用这个:

ps f -o user,pgrp,pid,pcpu,pmem,start,time,command -p `lsof -n -w -t /dev/nvidia*`

这将显示所有nvidia gpu利用进程和一些统计数据。lsof……检索当前用户拥有的nvidia GPU的所有进程的列表，并且ps -p…显示这些进程的ps结果。Ps f显示子/父进程关系/层次结构的良好格式，-o指定自定义格式。这个类似于ps u，但添加了进程组ID并删除了一些其他字段。

这与nvidia-smi相比的一个优点是，它将显示使用GPU的主进程以及进程分叉。

但是，它的一个缺点是它仅限于执行该命令的用户拥有的进程。为了将其开放给任何用户拥有的所有进程，我在lsof之前添加了一个sudo。

最后，我将它与手表结合起来，以获得持续的更新。所以，在最后，它看起来像:

watch -n 0.1 'ps f -o user,pgrp,pid,pcpu,pmem,start,time,command -p `sudo lsof -n -w -t /dev/nvidia*`'

它的输出如下:

Every 0.1s: ps f -o user,pgrp,pid,pcpu,pmem,start,time,command -p `sudo lsof -n -w -t /dev/nvi...  Mon Jun  6 14:03:20 2016
USER      PGRP   PID %CPU %MEM  STARTED     TIME COMMAND
grisait+ 27294 50934  0.0  0.1   Jun 02 00:01:40 /opt/google/chrome/chrome --type=gpu-process --channel=50877.0.2015482623
grisait+ 27294 50941  0.0  0.0   Jun 02 00:00:00  \_ /opt/google/chrome/chrome --type=gpu-broker
grisait+ 53596 53596 36.6  1.1 13:47:06 00:05:57 python -u process_examples.py
grisait+ 53596 33428  6.9  0.5 14:02:09 00:00:04  \_ python -u process_examples.py
grisait+ 53596 33773  7.5  0.5 14:02:19 00:00:04  \_ python -u process_examples.py
grisait+ 53596 34174  5.0  0.5 14:02:30 00:00:02  \_ python -u process_examples.py
grisait+ 28205 28205  905  1.5 13:30:39 04:56:09 python -u train.py
grisait+ 28205 28387  5.8  0.4 13:30:49 00:01:53  \_ python -u train.py
grisait+ 28205 28388  5.3  0.4 13:30:49 00:01:45  \_ python -u train.py
grisait+ 28205 28389  4.5  0.4 13:30:49 00:01:29  \_ python -u train.py
grisait+ 28205 28390  4.5  0.4 13:30:49 00:01:28  \_ python -u train.py
grisait+ 28205 28391  4.8  0.4 13:30:49 00:01:34  \_ python -u train.py

2016-06-06 18:15:15

如果你只是想找到运行在gpu上的进程，你可以简单地使用下面的命令:

lsof /dev/nvidia*

2019-10-22 12:32:00

只需使用watch nvidia-smi，它将默认以2s间隔输出消息。

例如，如下图:

你也可以使用watch -n 5 nvidia-smi (-n 5 by 5s interval)。

2018-06-29 03:29:26

你可以使用nvidia-smi pmon -i 0来监控GPU 0中的每个进程。包括计算模式、sm使用情况、内存使用情况、编码器使用情况、解码器使用情况。

2019-01-16 08:51:08

一个类似于顶部的实用程序，用于监控GPU上的CUDA活动

推荐文章

最新文章

标签