token如何变成数字？一文讲清Embedding

张

张建站

2026/5/1 0:58:00

10分钟阅读

前面几篇我们已经讲了三件事什么是大模型什么是token什么是词表到这里整个输入流程已经走到这一步了文本 → 按词表切分 → token → token ID比如一句话我是学生经过词表后可能变成我 → 0 是 → 1 学生 → 2但是问题来了模型看到的0、1、2真的能理解“我是学生”是什么意思吗答案是不能。因为这些数字只是编号不是含义。所以下一步就很关键把token ID变成向量。这一步就叫Embedding。编号不是语义先说一个很容易误解的点token ID只是编号不代表意思。比如猫 → 1024 狗 → 1025 汽车 → 1026这些编号只是为了方便查找。不能因为1024和1025很接近就说明猫和狗语义很接近。更不能因为1026离1024也很近就说汽车和猫也差不多。所以模型不能直接拿这些编号做理解。token ID更像是图书馆里书的编号。编号只是告诉你去哪里找这本书但编号本身不等于书的内容。Embedding是什么Embedding就是把token变成一串数字向量。比如猫 → [0.12, -0.35, 0.88, 0.41, ...] 狗 → [0.10, -0.32, 0.84, 0.39, ...] 汽车 → [-0.76, 0.21, -0.14, 0.93, ...]这些向量才是模型真正用来计算的东西。也就是说模型不是直接处理猫这个字也不是直接处理token ID 1024而是处理[0.12, -0.35, 0.88, 0.41, ...]这样一串数字。为什么要变成向量因为模型本质上是数学模型。它不能直接理解文字、基因、蛋白质、分子结构这些符号。它真正能处理的是数字矩阵向量加减乘除相似度计算所以Embedding做的事情就是把符号世界翻译成数学世界。可以这样理解文字/符号 → token → token ID → 向量这一步完成之后模型才能继续往下算。向量里到底装了什么很多人看到向量会觉得很抽象。比如[0.12, -0.35, 0.88, 0.41, ...]这串数字到底代表什么其实可以先不用把每一维都想得太具体。你只要先记住一个核心直觉相似的东西向量会更接近。比如在自然语言里猫和狗经常出现在相似语境中都可能和宠物、动物、吃饭、睡觉这些词有关所以经过训练后它们的向量往往会更接近。而猫和发动机出现的语境差别很大它们的向量距离通常会更远。可以把embedding想象成一张语义地图如果觉得向量空间太抽象可以先把它想象成一张地图。在这张地图上猫、狗、兔子可能在一个区域汽车、发动机、轮胎可能在另一个区域医生、医院、护士可能又在另一个区域也就是说每个token都被放到了一个位置上。位置相近说明它们在模型学到的世界里更相似。这就是为什么我们常说Embedding是一种表示。它不是简单地把词换成数字而是试图用数字位置表达它和其他词之间的关系。Embedding是谁规定的不是人工规定的。不是有人手动告诉模型猫和狗要近一点猫和汽车要远一点Embedding是模型在训练过程中自己学出来的。模型会在大量文本里不断观察哪些词经常一起出现哪些词出现在类似上下文哪些词可以完成类似句子哪些词之间存在稳定关系比如小猫在沙发上睡觉小狗在沙发上睡觉猫和狗经常出现在相似位置模型就会逐渐学到它们有某种相似性。这不是人直接教的而是模型从大量数据里统计出来的。不同领域的embedding其实逻辑一样Embedding不只用于自然语言。只要是符号化的数据都可以走这条路符号 → token → ID → embedding 向量自然语言词/字/子词 → 语义向量例如医生、护士、医院在语义空间里可能更接近。基因序列A / T / C / G 或 k-mer → 序列向量例如ATG可以作为一个token变成向量。模型学习的可能是序列片段和功能之间的关系。蛋白质序列氨基酸 → token → embedding比如A / R / N / D / ...这些氨基酸token的向量可能蕴含结构、功能、保守性等信息。分子SMILES对于分子来说SMILES也可以看成一种化学语言。比如CC(O)O可以被拆成C / C / ( / / O / ) / O或者更复杂的片段token。这些token再变成embedding 后模型就可以学习哪些结构片段相似哪些结构组合可能影响活性哪些分子更可能具有相似性质Embedding和词表是什么关系这两个概念很容易混。可以这样理解词表负责认识谁embedding负责怎么表示它比如词表里有ID 0 → 我 ID 1 → 是 ID 2 → 学生Embedding层会为每个ID准备一个向量ID 0 → [0.21, -0.13, 0.77, ...] ID 1 → [-0.08, 0.45, 0.19, ...] ID 2 → [0.66, -0.31, 0.52, ...]所以完整过程是文本 → token → token ID → 查表 → embedding向量这里的查表非常关键。Embedding层本质上也可以理解成一张大表每一行一个token的向量模型拿到token ID后并不是直接把这个编号拿去计算而是先到embedding表中查表找到这个ID对应的向量表示。也就是说输入阶段是token ID → embedding向量。同理模型在预测输出时也不是直接吐出文字而是先计算出下一个位置最可能对应的token ID再通过词表把这个ID还原成具体的文字或符号。也就是说输出阶段是模型计算结果 → token ID → 文字输入时文字 → token → token ID → embedding 向量 → 模型计算输出时模型计算 → 预测 token ID → 查词表 → 生成文字Embedding一开始就有意义吗不一定。很多模型刚开始训练时embedding可能是随机初始化的。也就是说一开始猫、狗、汽车它们的向量位置可能是乱的。随着训练进行模型不断调整这些向量。慢慢地经常相似使用的 token 会靠近差异很大的 token 会分开某些关系会在空间中形成稳定结构所以 embedding 不是固定死的而是训练出来的。为什么embedding很重要因为后面的Transformer、Attention、MLP处理的都不是原始文字而是embedding向量。如果embedding质量不好语义关系会混乱相似性判断会出错后面模型再复杂也很难补救可以打个比方**embedding是模型理解世界的坐标系。坐标系建得好后面的计算才有意义。**坐标系如果乱了模型就很难稳定工作。一个容易忽略的问题一个token的向量固定吗在最开始的 embedding 表里每个 token 确实有一个固定的初始向量。但进入Transformer之后情况就变了。同一个token在不同句子里最终表示可能不同。比如苹果很甜苹果公司发布新手机这里两个苹果一开始查到的embedding可能一样但经过上下文计算之后最终向量会不一样。这就是为什么大模型能根据上下文理解不同含义。所以可以这样说embedding是起点不是终点。初始embedding让token进入模型上下文计算让它变成更具体的含义。如果只记一句话Embedding就是把token从编号变成可计算的向量表示。它解决的是模型如何把符号变成数学对象。完整链条是文本 → 按词表切分 → token → token ID → embedding 向量 → 进入 Transformer 计算到了这里模型终于不再只是看到文字编号而是开始在一个向量空间里计算它们之间的关系。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

混响语音数据集RIR-Mega-Speech构建与应用解析

1. 混响语音数据集构建背景与核心价值在真实声学环境中，混响效应是影响语音识别性能的关键因素之一。当声波在封闭空间内传播时，会经历墙壁、天花板等界面的多次反射，形成复杂的声场叠加。这种声学现象虽然能让音乐厅的演奏更加丰满&#xff…...

2026/5/1 0:56:58 阅读更多 →

为OpenClaw/Clawdbot接入DuckCoding CodeX模型：安装配置与实战指南

1. 项目概述：为OpenClaw/Clawdbot接入DuckCoding CodeX模型如果你正在使用OpenClaw（或它的前身Moltbot，现在叫Clawdbot）来构建自己的AI助手或自动化工作流，那么你很可能已经体验过它灵活的多模型支持能力。但有时候&am…...

2026/5/1 0:56:57 阅读更多 →

从触摸开关到声光报警：拆解NE555单稳态电路的两种经典接法（附稳定性实测对比）

从触摸开关到声光报警：拆解NE555单稳态电路的两种经典接法（附稳定性实测对比） 在电子创客的世界里，NE555定时器芯片就像瑞士军刀一样经典而实用。无论是简单的LED闪烁，还是复杂的时序控制，这颗上世纪70年代…...

2026/5/1 0:51:57 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/4/28 1:18:38 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/28 3:08:33 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/27 23:58:30 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →