对于x86 cpu,英特尔软件优化手册中有一个记录良好的框架,称为自顶向下微体系结构分析方法,其中包含特定的 perf 计数器在每个级别上进行分析。
perf
我目前正在NVidia gpu geforce gtx 1050上运行一些代码,想了解和衡量与其微架构相关的性能瓶颈。
是否有一种与x86 CPU类似的通用方法来测量、分析和调整GPU代码性能?