手写最基础的大模型推理并使用Profile监控GPU性能消耗情况

张

张建站

2026/4/30 1:49:39

10分钟阅读

用torch.profiler来监控大模型推理这样可以得到GPU/CPU 使用情况、时间消耗、内存占用比简单的psutil更精确。下面完整示例importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizerimporttime# 1️⃣ 模型和 tokenizermodel_namedistilgpt2tokenizerAutoTokenizer.from_pretrained(model_name)modelAutoModelForCausalLM.from_pretrained(model_name)devicecudaiftorch.cuda.is_available()elsecpumodel.to(device)# 输入 promptpromptHello, I am a small language model. I caninputstokenizer(prompt,return_tensorspt).to(device)# 2️⃣ 使用 torch.profiler 监控推理withtorch.profiler.profile(scheduletorch.profiler.schedule(wait1,warmup1,active2,repeat1),on_trace_readytorch.profiler.tensorboard_trace_handler(./log),record_shapesTrue,profile_memoryTrue,with_stackTrue)asprof:# 模拟多步推理方便 profiler 捕捉forstepinrange(4):outputsmodel.generate(**inputs,max_length50,do_sampleTrue,temperature0.7,top_k50,top_p0.95,no_repeat_ngram_size2)prof.step()# 标记 step方便分析# 3️⃣ 打印统计信息print(prof.key_averages().table(sort_byself_cpu_time_total,row_limit20))# 4️⃣ TensorBoard 查看print(Profiler traces saved to ./log, run:)print(tensorboard --logdir./log)✅ 功能说明Profiler 配置record_shapesTrue→ 记录每个操作的 tensor 形状profile_memoryTrue→ 记录显存/内存占用with_stackTrue→ 打印调用堆栈定位耗时操作Schedulescheduletorch.profiler.schedule(wait1,warmup1,active2,repeat1)wait等待 step 数不记录warmup热身 step不计入统计active记录 step 数repeat重复几次 schedule用于多步生成或批量生成时统计更准确Profiler 输出prof.key_averages()→ CPU/GPU 每个操作耗时、显存消耗可以排序self_cpu_time_total/cuda_time_total找到瓶颈TensorBoard 可视化tensorboard--logdir./log可以看到每步操作的 GPU/CPU 时间、内存曲线直观分析模型推理性能优化建议如果模型更大7B可以结合torch.autocast(cuda)做混合精度节省显存并提升速度withtorch.autocast(device_typecuda,dtypetorch.float16):outputsmodel.generate(...)可以在 profiler 的on_trace_ready回调中写自定义分析比如打印每层显存占用。访问https://ui.perfetto.dev/#!/viewer?local_cache_key0-json

3分钟快速解密网易云音乐NCM格式：ncmdump工具完整使用指南

3分钟快速解密网易云音乐NCM格式：ncmdump工具完整使用指南【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的NCM加密文件无法在其他播放器播放而烦恼吗？ncmdump工具就是你的救星&#xf…...

2026/4/30 1:45:24 阅读更多 →

告别数据丢失焦虑：用DiskGenius给老硬盘MBR转GPT的保姆级图文教程

告别数据丢失焦虑：用DiskGenius给老硬盘MBR转GPT的保姆级图文教程老旧硬盘里的数据就像一本本珍贵的相册，承载着无数回忆。当我们需要将这些"记忆宝库"迁移到新设备时，MBR分区格式往往会成为绊脚石。本文将手把手教你如何用DiskGe…...

2026/4/30 1:41:34 阅读更多 →

【YOLOv11】068、YOLOv11联邦学习：分布式数据下的隐私保护训练

一、从一次数据合规审查说起上个月，客户突然要求我们提供YOLOv11在医疗影像数据上的训练日志和原始数据分布报告——因为他们的数据压根不能离开医院内网。实验室里顿时安静了，我们意识到：传统的集中式训练模式，在隐私敏感场景下根本走不通。这让我想起了三年前做安防项…...

2026/4/30 1:40:19 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/4/28 1:18:38 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/28 3:08:33 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/27 23:58:30 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →