我目前正在使用Ansible Role Metrics来收集性能指标。它使用性能协同飞行员和redis在Grafana上可视化这些指标。我遇到的问题特别是在我监控的某些系统中,NVIDIA GPU上收集的指标。我已设置Ansible角色,仅在安装了nvidia GPU的系统上安装并启用英伟达pmda。我在/var/lib/pcp/config/pmlogger文件中为该特定系统列出了一系列指标,如下所示:
nvidia.gpuid
nvidia.temperature
nvidia.fanspeed
nvidia.perfstate
nvidia.memfree
nvidia.carduuid
nvidia.energy
nvidia.power
nvidia.proc.samples
nvidia.proc.memused
nvidia.proc.memaccum
nvidia.proc.gpuactive
nvidia.proc.memactive
nvidia.proc.time
nvidia.proc.running
nvidia.proc.all.samples
nvidia.proc.all.memused
nvidia.proc.all.memaccum
nvidia.proc.all.gpuactive
nvidia.proc.all.memactive
nvidia.proc.all.time
nvidia.proc.all.running
nvidia.proc.all.gpulist
nvidia.proc.all.ngpus
nvidia.proc.compute.samples
nvidia.proc.compute.memused
nvidia.proc.compute.memaccum
nvidia.proc.compute.gpuactive
nvidia.proc.compute.memactive
nvidia.proc.compute.time
nvidia.proc.compute.running
nvidia.proc.compute.gpulist
nvidia.proc.compute.ngpus
nvidia.proc.graphics.samples
nvidia.proc.graphics.memused
nvidia.proc.graphics.memaccum
nvidia.proc.graphics.gpuactive
nvidia.proc.graphics.memactive
nvidia.proc.graphics.time
nvidia.proc.graphics.running
nvidia.proc.graphics.gpulist
nvidia.proc.graphics.ngpus
问题是,当我查询redis-pcp数据源时,只有少数指标会显示为查询的选项。基本上,除了nvidia之外,我对任何其他指标都没有问题。有人知道这件事吗?或者对为什么会发生这件事有什么建议吗?
我已经多次检查了pmda是否正常工作并已启用,一切似乎都与pcp正常工作有关。