一个类似于顶部的实用程序，用于监控GPU上的CUDA活动

我试图监控一个使用CUDA和MPI的进程，有没有办法我可以做到这一点，像命令“顶部”，但也监控GPU ?

当前回答

在设备监控模式下运行nvidia-smi，例如:

$ nvidia-smi dmon -d 3 -s pcvumt
# gpu   pwr gtemp mtemp  mclk  pclk pviol tviol    sm   mem   enc   dec    fb  bar1 rxpci txpci
# Idx     W     C     C   MHz   MHz     %  bool     %     %     %     %    MB    MB  MB/s  MB/s
    0   273    54     -  9501  2025     0     0   100    11     0     0 18943    75  5906   659
    0   280    54     -  9501  2025     0     0   100    11     0     0 18943    75  7404   650
    0   277    54     -  9501  2025     0     0   100    11     0     0 18943    75  7386   719
    0   279    55     -  9501  2025     0     0    99    11     0     0 18945    75  6592   692
    0   281    55     -  9501  2025     0     0    99    11     0     0 18945    75  7760   641
    0   279    55     -  9501  2025     0     0    99    11     0     0 18945    75  7775   668
    0   279    55     -  9501  2025     0     0   100    11     0     0 18947    75  7589   690
    0   281    55     -  9501  2025     0     0    99    12     0     0 18947    75  7514   657
    0   279    55     -  9501  2025     0     0   100    11     0     0 18947    75  6472   558
    0   280    54     -  9501  2025     0     0   100    11     0     0 18947    75  7066   683

完整的细节在man nvidia-smi。

2022-11-24 22:43:12

其他回答

我不知道有什么东西可以结合这些信息，但你可以使用nvidia-smi工具来获取原始数据，就像这样(感谢@jmsu关于-l的提示):

$ nvidia-smi -q -g 0 -d UTILIZATION -l

==============NVSMI LOG==============

Timestamp                       : Tue Nov 22 11:50:05 2011

Driver Version                  : 275.19

Attached GPUs                   : 2

GPU 0:1:0
    Utilization
        Gpu                     : 0 %
        Memory                  : 0 %

2011-11-22 10:43:43

如果你只是想找到运行在gpu上的进程，你可以简单地使用下面的命令:

lsof /dev/nvidia*

对我来说，nvidia-smi和watch -n 1 nvidia-smi在大多数情况下已经足够了。有时nvidia-smi显示没有进程，但gpu内存用完了，所以我需要使用上面的命令来查找进程。

2019-10-22 12:32:00

从这里下载并安装最新的稳定CUDA驱动程序(4.2)。在linux上，nVidia-smi 295.41给你你想要的。使用nvidia-smi:

[root@localhost release]# nvidia-smi 
Wed Sep 26 23:16:16 2012       
+------------------------------------------------------+                       
| NVIDIA-SMI 3.295.41   Driver Version: 295.41         |                       
|-------------------------------+----------------------+----------------------+
| Nb.  Name                     | Bus Id        Disp.  | Volatile ECC SB / DB |
| Fan   Temp   Power Usage /Cap | Memory Usage         | GPU Util. Compute M. |
|===============================+======================+======================|
| 0.  Tesla C2050               | 0000:05:00.0  On     |         0          0 |
|  30%   62 C  P0    N/A /  N/A |   3%   70MB / 2687MB |   44%     Default    |
|-------------------------------+----------------------+----------------------|
| Compute processes:                                               GPU Memory |
|  GPU  PID     Process name                                       Usage      |
|=============================================================================|
|  0.  7336     ./align                                                 61MB  |
+-----------------------------------------------------------------------------+

编辑:在最新的NVIDIA驱动程序中，此支持仅限于特斯拉卡。

2012-09-26 19:05:46

您可以尝试nvtop，它类似于广泛使用的htop工具，但用于NVIDIA gpu。下面是nvtop的截图。

2019-03-09 12:46:55

我发现gpustat非常有用。它可以与pip install gpustat一起安装，并按进程或用户打印使用情况。

2018-07-18 15:43:50

一个类似于顶部的实用程序，用于监控GPU上的CUDA活动

推荐文章

最新文章

标签