大语言模型：从提问到答案的AI“思考”过程，让你秒懂AI如何工作！

张

张建站

2026/5/14 8:23:41

10分钟阅读

本文深入浅出地解析了大语言模型LLM的工作原理从自然语言转换成数字语言到深层语义理解再到逐词生成回答详细介绍了LLM的三个核心步骤。文章通过分词、嵌入、位置编码等关键技术以及Transformer架构的自注意力机制和前馈神经网络揭示了AI如何像人一样“思考”和“理解”问题最终生成流畅准确的回答。最近“Seedance 2.0变革影视行业”、“养龙虾OpenClaw”等话题在自媒体上铺天盖地越来越多的人患上了“AI焦虑”。要破解AI焦虑首先得了解AI技术的基本原理和概念这期从大语言模型Large Language ModelLLM 的“一问一答”入手带大家了解它的工作原理。首先看词释义——大语言模型Large Language Model 模型Model是人类对现实对象、系统或现象的简化、抽象与形式化表达。而大语言模型顾名思义指的就是“大型”的“自然语言”的“模型”。我们日常与大语言模型打交道最主要的用法就是提问然后模型“一个字一个字往外蹦出”回答。比如说我们用自然语言输入一个问题“什么是大语言模型”大模型要完成回答主要可分为三步一、自然语言转换成数字语言分词、嵌入、位置编码二、深层语义理解Transformer架构逐层“审题、读懂问题”三、自回归逐词生成回答不断预测和决定下一个词元第一步对自然语言进行预处理模型内部并不认识自然语言不管是汉字还是英文因此我们需要把自然语言转换成模型能认识的数字语言。这个转换过程主要有三个小步。1分词Tokenization把句子拆分成模型认识的最小单位“Token”词元。一个Token可能是一个完整的词如“天气”也可能是词的一部分如英文中的“un”、“ing”甚至是标点符号。[什么是大语言模型]这句话拆分后的Token列表像这个样子—— [什么, 是, 大, 语言, 模型, ]不同模型的分词结果略有不同。2Token转数字ID模型通过查自己的“词汇表”给每个Token匹配一个唯一的数字ID。以问题为例转换后大概是这样3嵌入Embedding 位置编码只有数字ID还不够模型需要知道两个ID之间的关系以及词的先后顺序。所以这一步是给数字加上“含义”和“顺序”。词嵌入Token Embedding就是把每个Token的数字ID映射成一串固定长度的高纬“数字向量”比如GPT3.5是12288维通俗说就是一串有12288个数字的数组。这个向量就像是该词元在多维空间里的“坐标”能表达它的语法和语义。意思越接近的词向量的距离就越近。比如“语言”和“文字”的向量很像和“苹果”的向量就差得很远。这个向量不是随便编的是模型在预训练阶段从几千亿的人类文本里学出来的已经记住了每个词的语义、用法、关联关系。为了让模型知道“什么”在“是”前面“模型”在“”前面需要加上位置信息。常用方法是用正弦/余弦函数生成固定位置编码直接加到词向量上或者让模型自己学习一个位置嵌入表。加上位置编码后每个向量现在既包含“词义”又包含“在第几位”。这一步完成后问题“什么是大语言模型”就变成了一组“带语义、带顺序的数字矩阵”模型可以正式开始“审题、理解”了。第二步深层语义理解这一步用到了一个很重要的架构——Transformer通过其解码器Decoder逐层拆解读懂我们到底在问什么。现在的主流对话大模型都用的是Decoder-only的纯解码器架构。transformer架构左侧编码器encoder右侧解码器decoder可以把解码器结构理解成几十层的“审题流水线”比如GPT3.5有96层每一层都有固定的两个核心模块自注意力机制前馈神经网络前一层的输出作为后一层的输入。这么多层结构那解码器每一层是做什么的通俗比喻就像做阅读理解题第一层先认全每个字第二层读懂每个词组第三层搞懂整句话的意思第四层明白这是个疑问句、要下定义第五层理清要回答哪些核心内容越往后的层理解的内容越抽象、越接近核心需求。针对“什么是大语言模型”这句话每一层的核心动作我们拆解开来讲。核心模块1自注意力机制Self-Attention这是Transformer最核心的发明通俗说就是让模型能看懂上下文知道哪个词和哪个词有关系该重点关注哪些内容。针对提问自注意力机制会做这几件事先给句子里的每个Token计算和其他所有Token的“关联权重”权重越高说明两个词的关系越紧密模型越要重点关注。针对“什么是大语言模型”计算出来的权重大概是这样的“什么”和“”的权重极高模型知道这是一个疑问句核心是“提问、要解释”。“大” “语言” “模型” 三个词的互相权重极高模型知道这三个词是一个整体是一个专有名词这句话的核心主语。“是”和前面的“什么”、后面的“大语言模型”权重很高模型知道这句话的核心需求是“给大语言模型下定义、做解释”。结果是每个词的向量都融合了上下文信息。例如“模型”的向量现在包含了“大语言模型”的整体含义。核心模块2前馈神经网络Feed-Forward Network, FFN自注意力让每个词“环顾四周”看懂了其他词跟自己的关系。但看懂还不够接下来FFN会对每个词独自进行深度加工就像你在听完别人的发言后自己静下来好好琢磨一下。FFN是一个小型神经网络通常两层中间扩宽维度再用激活函数筛选信息。它不和其他词交流只针对当前词已经融合了上下文的那份“综合向量”做两件事a.放大其中有用的特征比如“模型”这个词此刻应该被理解为“AI模型”而非“时装模型”b.抑制无关的噪声。不同层的FFN分工不同浅层FFN主要做“词组固化”。例如当“大”“语言”“模型”三个词通过注意力互相看过后浅层FFN会让“模型”这个位置的向量更强烈地表达“这是一个三词组合成的专有名词”。中层FFN开始识别抽象模式。比如当模型看到“什么是XX”这个句式中层FFN会把“XX”位置的向量向“需要给出定义、原理、作用”的方向调整。深层FFN处理逻辑、常识、风格等更高级的特征。比如判断“接下来应该用肯定的语气”还是“需要举例说明”。经过几十层循环处理向量中蕴含的信息越来越抽象、高级。最终最后一个解码器的输出是一组经过深度加工的向量每个向量代表对应位置上的词在整句话和模型知识中的综合理解。第三步预测和决定下一个词元先是预测下一个词元现在我们有6个输出向量对应“什么”“是”“大”“语言”“模型”“”。但模型要生成回答需要预测第一个回答词。通常我们只取最后一个位置的向量对应“”作为“查询向量”。这个向量会经过一个输出层也叫解码头向量乘以一个巨大的矩阵尺寸隐藏维度 × 词汇表大小得到词汇表里每个词的分数logits。再用一个softmax函数将分数转换成概率分布所有词概率之和1。此时词汇表里概率最高的词可能是“大”、“一种”、“AI”等。比如“一种”的概率是0.35“大”是0.2“模型”是0.1……模型会根据概率分布来决定选哪个。然后是采样生成决定下一个词元直接每次都选概率最高的词会导致回答重复枯燥。所以模型常用一些采样策略比如温度采样温度高则随机性大低则保守。top-k采样只从概率最高的k个词里随机选。top-p采样累积概率达到p的一批词里随机选。假设模型选定了“一种”作为第一个回答词。然后模型会把“一种”拼接到原问题后面形成新的输入“什么是大语言模型一种”接着重复第二步和第三步。但注意为了效率模型不会重新计算整个序列而是利用一种叫KV缓存Key-Value Cache的技术只计算新词。这样逐词生成“一种”→“能够”→“理解和生成”→“自然语言”→“的”→“人工智能”→“模型”。直到模型输出一个表示结束的特殊词元如|endoftext|或达到长度限制。模型生成完所有Token后不会直接把原始内容发给你还会做最后一步的后处理比如去掉|end|等一些特殊标记符进行一些格式整理内容的安全校验等。校验通过后最终的通顺文本就会发送到你的屏幕上最终你看到的就是回答“大语言模型是一种能够理解和生成自然语言的人工智能模型。”AI行业迎来前所未有的爆发式增长从DeepSeek百万年薪招聘AI研究员到百度、阿里、腾讯等大厂疯狂布局AI Agent再到国家政策大力扶持数字经济和AI人才培养所有信号都在告诉我们AI的黄金十年真的来了在行业火爆之下AI人才争夺战也日趋白热化其就业前景一片蓝海我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取人才缺口巨大人力资源社会保障部有关报告显示据测算当前****我国人工智能人才缺口超过500万****供求比例达1∶10。脉脉最新数据也显示AI新发岗位量较去年初暴增29倍超1000家AI企业释放7.2万岗位……单拿今年的秋招来说各互联网大厂释放出来的招聘信息中我们就能感受到AI浪潮比如百度90%的技术岗都与AI相关就业薪资超高在旺盛的市场需求下AI岗位不仅招聘量大薪资待遇更是“一骑绝尘”。企业为抢AI核心人才薪资给的非常慷慨过去一年懂AI的人才普遍涨薪40%脉脉高聘发布的《2025年度人才迁徙报告》显示在2025年1月-10月的高薪岗位Top20排行中AI相关岗位占了绝大多数并且平均薪资月薪都超过6w在去年的秋招中小红书给算法相关岗位的薪资为50k起字节开出228万元的超高年薪据《2025年秋季校园招聘白皮书》AI算法类平均年薪达36.9万遥遥领先其他行业总结来说当前人工智能岗位需求多薪资高前景好。在职场里选对赛道就能赢在起跑线。抓住AI风口轻松实现高薪就业但现实却是仍有很多同学不知道如何抓住AI机遇会遇到很多就业难题比如❌ 技术过时只会CRUD的开发者在AI浪潮中沦为“职场裸奔者”❌ 薪资停滞初级岗位内卷到白菜价传统开发3年经验薪资涨幅不足15%❌ 转型无门想学AI却找不到系统路径83%自学党中途放弃。他们的就业难题解决问题的关键在于不仅要选对赛道更要跟对老师我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取

基于ESP32的智能实验室环境监测与联动告警系统实现

1. 为什么实验室需要智能环境监测系统实验室作为科研创新的重要场所，对环境条件有着严格要求。温度、湿度、光照和空气质量等参数的微小变化，都可能影响实验结果甚至损坏精密仪器。传统的人工记录方式不仅效率低下，还容易出现漏检和误判。我…...

2026/4/12 1:12:33 阅读更多 →

VirtualBox 安装ubuntu-25 ，配置SSH工具登录

填写框出来的内容即可：点击完成即可。直接等着完成安装，完成后使用vboxuser登录，密码就是上图你设置的。登录进入后使用sudo passwd root 给root设置密码--------------------------------从本机ssh登录设备的设置：本机IP看你电脑…...

2026/4/12 1:02:32 阅读更多 →

ST7701和ST7701S区别

这个问题问得非常好，而且90%做RGB屏的人都会踩坑（尤其是你现在用ESP32-S3 RGB接口）。我给你从芯片本质驱动工程角度讲清楚。一、先给结论（你最关心的） 👉 ST7701 和 ST7701S： ✔ 本质是同一…...

2026/4/12 1:00:55 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/14 4:32:07 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/12 5:45:54 阅读更多 →