收藏！大模型工程师的日常揭秘：从训练到部署的全流程解析

张

张建站

2026/4/30 22:27:58

10分钟阅读

本文揭秘了阿里大模型工程师的日常工作强调这类岗位并非单一职位而是涵盖模型训练/预训练、模型对齐/后训练、推理优化/部署、应用开发/工程落地以及数据等多个方向。文章详细描述了每个方向的日常工作内容、面临的挑战及所需技能如模型训练中的问题排查与效率优化模型对齐中的数据收集与实验迭代推理优化中的量化与框架调优等。同时文章也指出大模型工程师需具备良好的会议讨论能力以清晰解释实验结果并提出有价值的判断。最后作者呼吁真正在大模型岗位工作的人分享他们的经验以提供更准确的信息。说实话这个问题煮啵有点虚着回答。不是不知道是我真正了解的只有阿里——其他大厂的情况煮啵没有在里面待过不敢乱说。而且还有一个更诚实的前提要说真正在做大模型的工程师大概率没时间写知乎。煮啵说这话是有依据的——过年那几天我们有一个训练模型的群每训练完一个模型群里的机器人就会自动输出一条结果数据。那几天消息一直在响。我当时盯着那些数字看心想这帮MT我的mentor们过年都在训模型。所以你在知乎上看到的”大模型工程师的一天”大概率是要么实习生写的要么已经离职的人写的要么就是根据行业信息拼出来的。煮啵这篇主要是根据实习期间看到的工作文档、进度报告、周会内容加上自己的观察和猜测拼出来的。不一定完全准确你自己判断。阿里以外的大厂煮啵就不瞎说了。说起来我们阿里我感觉工作氛围相对来说是大厂里面比较轻松的哈哈哈不像某个跳动应届生进去工作平均年限居然不到一年哈哈哈哈让煮啵先把”大模型岗位”这个词拆开大模型岗位不是一个岗位是一堆岗位的统称做的事情差异巨大。大概可以分成这几类模型训练/预训练方向模型对齐/后训练方向推理优化/部署方向应用开发/工程落地方向数据方向每个方向的日常工作差异大到不像在同一个行业。煮啵分开说。模型训练/预训练这个方向是煮啵最确定”真的很忙、真的没时间刷知乎”的方向。过年群里机器人一直在响基本就是这帮人的工作状态。他们在做什么日常大量的时间是在解决训练不稳定的问题。大模型预训练动辄几百张卡跑几个月中间会出各种幺蛾子——Loss spike训练loss突然跳高然后不知道能不能降回来。这种情况出现了要分析是数据问题、学习率问题、还是某个模块的数值问题。卡挂了某张卡或者某个节点出了问题要判断是硬件故障还是软件bug要决定要不要从上一个checkpoint重启。梯度爆炸某一层的梯度突然变得很大整个训练崩了要找根因。这些问题没有标准答案靠经验靠对模型内部的理解靠profiling工具一点点排查。这里要插一嘴最近千问抢占了大量边缘部门的卡呜呜呜并且还的拖拖拉拉的可恶另一大块时间是在做训练效率优化。几百张卡跑训练通信开销是真实的瓶颈。张量并行、流水线并行、数据并行怎么配显存怎么省计算和通信怎么overlap——这些细节决定了训练速度也决定了成本。一个优化能把训练吞吐量提升10%在几百张A100上跑几个月省下来的钱是真实的。还有一块是数据pipeline。预训练数据量是TB级甚至PB级的数据怎么清洗、怎么去重、怎么配比、怎么采样——这些决定了模型的基础能力而且影响很难在训练早期看出来往往要训完才知道某个数据决策对不对。这个方向的人工作时间很难规律因为训练任务不等人——模型训到一半出问题了不管几点都要处理。当然这里说的是像千问这样的公司重点项目哈哈哈哈边缘部门就相对来说比较佛系了咳咳应该吧模型对齐/后训练这个方向是大模型从”能用”到”好用”的关键环节。包括SFT监督微调、RLHF基于人类反馈的强化学习、DPO直接偏好优化这些技术。日常的核心工作是数据、数据、还是数据。SFT需要高质量的指令数据——格式正确、回答准确、风格一致。这些数据从哪来一部分是外部采购一部分是内部生成一部分是人工标注。数据质量直接决定对齐效果所以大量的时间花在设计数据收集方案怎么定义”好的回答”标注规范怎么写怎么保证标注一致性。数据清洗去掉有毒的、格式错的、质量差的数据。数据配比实验这类数据多一点还是少一点对最终效果的影响。另一块是实验迭代。改一个数据配比跑一个小实验看eval指标决定要不要大规模复现。改一个训练超参再跑再看再决定。这个过程听起来枯燥但判断”哪个方向值得继续推进”本身需要经验和直觉——不是机械地跑实验。还有一块是评估。模型好不好怎么量化自动化eval——各种benchmark数学、代码、推理、安全……跑分看有没有regression有没有提升。人工eval——让真实用户用收集反馈分析哪类问题回答得不好。红队测试——专门去找模型的边界看它在什么情况下会输出有害内容怎么绕过安全限制。说起来最近煮啵也被主管安排做相关的实验呜呜呜本来是想看论文摸鱼的推理优化/部署这个方向是煮啵在实验室最熟悉的相关内容也是vLLM那篇回答聊过的东西。模型训完了要部署给用户用。但大模型推理很贵延迟高怎么在保证质量的前提下把成本压下来把速度提上去——这是这个方向的核心问题。日常在做什么量化——把模型从FP16压到INT8甚至INT4显存占用砍半速度提升精度损失控制在可接受范围内。不同的量化方案在不同模型上效果不一样要实验。推理框架调优——vLLM、TensorRT-LLM、自研框架PagedAttention的参数怎么配batch size怎么选KV Cache怎么管理。算子优化——某个特定操作的CUDA kernel写得不够高效手写一个更快的版本。这个需要真正懂GPU架构门槛最高。投机采样Speculative Decoding——用小模型辅助大模型推理前面煮啵有一篇关于vLLM的回答聊过这里不展开了。硬件选型——A100、H100、国产卡……不同硬件的特性不一样同样的模型在不同硬件上跑出来的性能差距很大要做评测和选型。这个方向的人profiling工具要玩得很熟Nsight Systems、Nsight Compute能从trace里看出来瓶颈在哪里。应用开发/工程落地这个方向和前三个差别很大更偏工程更接近业务。他们在做什么RAG系统——检索增强生成给模型接上知识库让它能回答最新的、私有的信息。涉及向量数据库、文本分块策略、检索算法、重排序……Agent系统——让模型能调用工具能执行多步任务能和外部系统交互。这个方向现在很热但工程上还有很多没解决的问题。Prompt工程——怎么设计系统prompt怎么控制模型的输出格式怎么减少幻觉怎么提升特定任务的效果。模型能力评估和选型——业务场景需要哪些能力哪个模型更适合怎么做AB测试怎么量化业务指标的提升。多模态接入——把图像、语音、视频的能力接进来涉及不同模态的数据处理、模型对接、输出解析。这个方向的日常节奏比前三个快更贴近业务需求经常要快速迭代更像传统的互联网工程师只是工具换成了大模型。数据方向这个方向经常被低估但在大模型里是真正的基础设施。数据采集——从哪里获取高质量的训练数据版权问题怎么处理数据来源怎么多样化。数据清洗——去重、去噪、过滤低质量内容、检测有害内容。这个流程的pipeline要处理TB级别的数据工程要求很高。数据标注管理——标注规范的设计标注人员的培训标注质量的管控标注一致性的评估。数据飞轮——模型上线之后收集用户反馈把有价值的反馈转化成新的训练数据让模型持续进化。这个方向很多人以为只是”处理数据”但实际上数据决策直接影响模型能力的上限做得好的人对这件事有很深的理解不是体力活。咳咳并且哈哈哈我们如果遇到了奇怪的问题或者是实在找不到原因了就会把锅扣给数据哈哈哈哈说一个煮啵觉得很多人没想到的事实习的时候煮啵发现一件事做大模型的人开会的时间比我想象的多很多。不是无效的扯皮会是真实的技术讨论——这个实验方向值不值得继续为什么这个eval指标提升了但用户反馈没变好这个数据配比改动背后的逻辑是什么下一个sprint的优先级怎么排。这些讨论需要你对模型有足够深的理解也需要你能把自己的判断说清楚。光会跑实验不够你要能解释实验结果要能根据结果提出有价值的下一步判断。这个能力学校里练不出来只有在真实的工程环境里才能慢慢建立。煮啵实习第一个月开会基本就是在听完全不知道该说什么。第二个月开始能跟上讨论了。第三个月才开始敢提自己的判断。这里要夸夸阿里确实是在认真培养实习生至少算法岗是这样每周都让实习生轮流分享论文要是想发paper也可以请教mt带薪发论文美滋滋最后说一个真实的感受写这篇的时候煮啵想起过年那几天群里机器人的消息一条一条往下刷。那些数字——loss、perplexity、各个benchmark的分数——背后是真实的人在真实地工作。他们不会在知乎上写”大模型工程师的一天”因为他们的一天可能还没结束。所以这篇里说的东西是煮啵根据工作文档、进度报告、周会内容拼出来的不是第一手的亲历。如果有真正在这个岗位上的人看到这篇欢迎来评论区补充或者纠正——你们的一手经验比煮啵猜的准确多了。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

为什么很多公司不重视测试？

关注「软件测试就业联盟」公众号，陪你走好校招求职的每一步导读很多测试工程师都有过类似感受：需求延期，测试背锅；线上出问题，测试背锅；版本赶进度，测试被压缩；项目复盘时&#xff0…...

2026/4/30 22:27:35 阅读更多 →

抖音批量下载工具深度解析：从零实现无水印视频高效采集

抖音批量下载工具深度解析：从零实现无水印视频高效采集【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback supp…...

2026/4/30 22:27:05 阅读更多 →

Wand-Enhancer 终极指南：三步免费解锁WeMod Pro完整功能

Wand-Enhancer 终极指南：三步免费解锁WeMod Pro完整功能【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 还在为WeMod专业版的高昂订阅费发愁…...

2026/4/30 22:26:54 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/4/28 1:18:38 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/28 3:08:33 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/27 23:58:30 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →