一个类似于顶部的实用程序，用于监控GPU上的CUDA活动

我试图监控一个使用CUDA和MPI的进程，有没有办法我可以做到这一点，像命令“顶部”，但也监控GPU ?

当前回答

Prometheus GPU Metrics exporters (PGME)利用了nvidai-smi二进制文件。你可以试试这个。一旦运行了导出器，就可以通过http://localhost:9101/metrics访问它。对于两个gpu，示例结果如下所示:

temperature_gpu{gpu="TITAN X (Pascal)[0]"} 41
utilization_gpu{gpu="TITAN X (Pascal)[0]"} 0
utilization_memory{gpu="TITAN X (Pascal)[0]"} 0
memory_total{gpu="TITAN X (Pascal)[0]"} 12189
memory_free{gpu="TITAN X (Pascal)[0]"} 12189
memory_used{gpu="TITAN X (Pascal)[0]"} 0
temperature_gpu{gpu="TITAN X (Pascal)[1]"} 78
utilization_gpu{gpu="TITAN X (Pascal)[1]"} 95
utilization_memory{gpu="TITAN X (Pascal)[1]"} 59
memory_total{gpu="TITAN X (Pascal)[1]"} 12189
memory_free{gpu="TITAN X (Pascal)[1]"} 1738
memory_used{gpu="TITAN X (Pascal)[1]"} 10451

2018-06-12 18:11:56

其他回答

要获得使用资源的实时洞察，请执行:

Nvidia-smi -l

这将在每一秒循环并调用视图。

如果你不想在控制台历史记录中保留循环调用的过去痕迹，你也可以这样做:

观看-n0.1 nvidia-smi

其中0.1是时间间隔，单位为秒。

2016-03-03 07:33:43

我发现gpustat非常有用。它可以与pip install gpustat一起安装，并按进程或用户打印使用情况。

2018-07-18 15:43:50

您可以尝试nvtop，它类似于广泛使用的htop工具，但用于NVIDIA gpu。下面是nvtop的截图。