news 2026/4/18 13:52:16

vLLM推理引擎教程6-Nsight Systems性能分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
vLLM推理引擎教程6-Nsight Systems性能分析

1、概念

我们需要通过推理引擎极致地优化推理的性能,所以必不可少需要一个性能分析工具。

本文介绍Nvidia Nsight Systems,它时一个低开销的系统级性能分析器。它的核心设计目标是回答一个关键问题:“我的应用程序在运行过程中,时间到底花在了哪里”。

Nsight Systems专注于应用程序的行为,它通过收集代码在CPU和GPU上的执行细节,生成一个跨整个系统的时间线视图,让开发者能够清晰地看到线程活动、GPU内核执行、内存拷贝、API调用等事件之间地因果关系和时序关系。

2、安装

目标:在linux服务器上跟踪应用程序的执行,在windows上进行可视化分析。

下载地址:https://developer.nvidia.com/nsight-systems/get-started

Windows安装:

linux安装:

Linux安装命令:

sudo rpm -ivh NsightSystems-linux-cli-public-2025.6.1.190-3689520.rpm

Linux端验证成功:

nsys --version

返回结果:

3、Python版本GPU性能测试

python测试代码:

import torch import time print("Creating tensors on GPU...") x = torch.randn(10000, 10000).cuda() y = torch.randn(10000, 10000).cuda() print("Performing matrix multiplication...") start = time.time() z = torch.mm(x, y) torch.cuda.synchronize() end = time.time() print(f"Done! Time: {end - start:.2f} seconds") print(f"Result shape: {z.shape}")

执行命令日志:

(vllm_python312) [work@iZuf6hp1dkg31metmko4pbZ test]$ nsys profile --trace=cuda,nvtx,osrt --output=matrix_mult_trace --force-overwrite true python test_gpu.py Collecting data... Creating tensors on GPU... Performing matrix multiplication... Done! Time: 0.10 seconds Result shape: torch.Size([10000, 10000]) Generating '/tmp/nsys-report-1078.qdstrm' [1/1] [========================100%] matrix_mult_trace.nsys-rep Generated: /data/xiehao/workspace/code/test/matrix_mult_trace.nsys-rep

将nsys-rep文件在Windows端通过GUI打开:

上面的python代码涉及GPU操作的有3部分:

- x复制到GPU,32ms

- y复制到GPU,31ms

- mm操作,47ms

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 0:14:56

nVisual模块之间关系

nVisual做为一款数字孪生管理平台,实现网络规划、仿真分析,结合扩展模块可以快速实现一体运维管理。扩展模块主要有:自动发现模块、EXCEL插件、移动端APP、监测模块、多个业务模块(如巡检、资产、工单、业务等)。如下图…

作者头像 李华
网站建设 2026/4/18 5:32:33

COMSOL的多物理场仿真工具箱里藏着电池工程师的快乐密码。今天咱们不聊虚的,直接看几个实操案例。比如锂离子电池的热失控模拟,这个参数设置界面里藏着魔鬼细节

COMSOL电池有限元仿真模拟,包括铅酸电池、锂离子电池、镍金属氢化物电池、固体氧化物燃料电池(SOFC)、直接甲醇燃料电池(DMFC)和质子交换膜燃料电池(PEMFC)等。 可以仿真电极和电解质中的底层电化学,研究不同工作条件、设计下的性能,老化机制…

作者头像 李华
网站建设 2026/4/18 11:03:14

Day38 MLP神经网络的训练

一、PyTorch的安装 我们后续完成深度学习项目中,主要使用的包为pytorch,所以需要安装,需要去配置一个新的环境。 未来在复现具体项目时候,新环境命名最好是python版本_pytorch版本_cuda版本,例如 py3.10_pytorch2.0_cuda12.2 ,因为复杂项目对运行环境有…

作者头像 李华
网站建设 2026/4/18 9:44:30

A860-2000-T351编码器

A860-2000-T351 编码器A860-2000-T351 是一款高精度工业用旋转编码器,主要用于数控系统、伺服驱动器和自动化设备中,为机械设备提供精确的位置信号和速度反馈。主要特点:高精度输出:提供可靠的位置信号,保证运动控制的…

作者头像 李华
网站建设 2026/4/18 8:06:00

STL中容器适配器:stack,queue,priority_queue 的介绍与简单模拟实现

stack(栈) stack的基本介绍 栈(Stack)是一种后进先出(LIFO)的线性数据结构,只能在容器的一端(称为栈顶)进行插入和删除操作。 **核心特性 仅允许在栈顶插入和删除元素不支持随机访问没有迭代器&…

作者头像 李华
网站建设 2026/4/18 7:54:01

DSF-2MW-H编码器

DSF-2MW-H 编码器DSF-2MW-H 是一款高精度工业旋转编码器,用于将机械轴的旋转角度转换为电信号,实现精确的位置、速度和方向反馈。它广泛应用于自动化设备、数控机床、伺服系统和机器人控制中。主要特点:高分辨率输出:确保位置测量…

作者头像 李华