从零入门大模型：小白程序员必备的认知链路，收藏学习！

张

张建站

2026/5/13 5:58:46

10分钟阅读

本文通过一条“认知链路”梳理了AI技术发展脉络从基础概念LLM与Token到沟通方式Prompt再到查资料技术RAG逐步深入到动手干活的Agent与Multi-Agent标准接入工具MCP流程复用Skills最终到平台化落地形态Claude Code与OpenClaw。文章旨在帮助读者构建完整的AI技术认知框架理解各概念间的内在联系与协同关系为AI应用进化提供清晰路线图。认知链路为什么成立今天行业里很多“AI 应用进化路线”其实都是在给 LLM 补齐三类短板缺知识不知道最新事实、缺行动能力不能操作外部系统、缺工程化复用不能长期稳定跑、不能沉淀流程。那么RAG把“外部知识库”接进来让回答更可追溯、更能更新。Agent通过“工具调用循环执行”把聊天变成“能把事做完”的系统。MCP把“外部工具/数据”接入方式标准化降低碎片化集成成本。Skills把“做事的方法”沉淀为可复用模块避免每次都从零提示、从零试错。Claude Code / OpenClaw则是两种典型“落地形态”一个把 Agent 放进开发者终端/IDE 工作流一个把 Agent 做成“多聊天渠道网关** 长生命周期运行**”。地基LLM 与 Token01 LLMLLMLarge Language Model可以理解为“把文本映射到文本的函数”给定输入文本它预测接下来最可能出现的文本序列因此擅长对话、总结、翻译、写代码等语言任务。解决啥解决“用自然语言做泛化推理与生成”的问题——你不必为每个细分写作/分析任务都写一套规则引擎。怎么用对普通用户最稳的姿势是把它当“写作/思考/总结引擎”把目标、上下文、限制条件交代清楚让它输出结构化结果后面 Prompt 会讲。边界在哪LLM 默认仍然是“文字世界里的大脑”。想让它查资料、调工具、执行流程、长期稳定跑就需要后面的 RAG、Agent、MCP、Skills 与平台化运行环境。02 TokenToken 是模型处理文本的基本单位。它可能是一个字符、一个词、半个词空格/标点也会计入。不同语言的 token/字符比例差异很大。解决啥Token 是“成本记忆窗口”的共同语言很多 API包含工具调用场景按 token 计费模型有上下文上限输入输出 token 总和超了就必须截断/压缩导致“记不住”“丢细节”。怎么用工程上常用 tokenizer 来估算 token 数量比如 OpenAI 的 tiktoken 示例明确指出数 token 可以帮助判断文本是否过长以及一次调用大概多少钱因为按 token 计费。边界在哪token ≠ 字数/词数。英文有经验值例如 1 token≈4 个字符但只是粗略估计换成中文、代码、混合符号时token 比例会明显变化因此“按字数估成本/上下文”很容易误判。沟通Prompt03 PromptPrompt 本质是“触发模型响应的输入”。更实用的理解它是你写给模型的需求说明书。解决啥它解决的不是“让模型更聪明”而是“让模型按你期望的方式工作”输出结构、语气、边界、格式、禁区、评估标准。怎么用官方提示词建议里最稳定的几条都非常“朴素但管用”把指令放最前面用分隔符把“指令”和“材料”隔开具体、可检验地描述你要的输出长度、结构、风格用示例来约束输出格式先零样例zero-shot不行再少样例few-shot再考虑微调。边界在哪Prompt 再好也不能凭空补齐“你没给、模型也没确切掌握”的事实。换句话说Prompt 解决“沟通”不解决“资料来源”——这就是 RAG 出场的原因。查资料RAG04 RAGRAGRetrieval-Augmented Generation来自经典论文它把“模型参数里存的知识”parametric memory与“可检索的外部记忆”non-parametric memory比如向量索引结合起来——先检索相关文本再基于检索结果生成。“标题《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》论文地址https://arxiv.org/abs/2005.11401解决啥论文点得很直白大模型确实存了大量事实但在知识密集任务上仍会受限同时“给出可追溯出处provenance”和“更新世界知识”是开放问题。RAG的价值恰恰在于更容易“用新资料覆盖旧印象”更容易把“引用依据”带给用户往往能让生成更具体、更事实化。怎么用落地时通常是“三段式管线”把资料切分成可检索片段用 embedding 把文本向量化并建立索引查询时检索 top-k 片段把它们塞进上下文让模型带着“参考材料”输出。你也可以把它理解为RAG 不是让模型“背更多”而是让模型“像开卷考试一样”每次回答前先翻资料。边界在哪RAG 不是“百分百正确”的魔法。检索质量切分、索引、召回、资料质量、以及生成阶段的提示方式都会影响结果论文也强调“更新知识与可追溯”是开放问题而不是一键解决。动手干活Agent 与 Multi-Agent05 Agent一份来自 OpenAI 的实践指南给了一个非常可执行的定义Agent 是能“以较高独立性在你名义下完成任务”的系统它不仅用 LLM 做决策还能调用工具与外部系统并在失败时停止或把控制权交还给用户。解决啥它解决的是“从给答案”到“把事做完”的跨越拆任务、选工具、执行、拿回结果、再迭代形成闭环交付。怎么用主流实现都离不开“工具调用tool calling/function calling”这套机制你把可用工具含输入 schema告诉模型模型判断需要时会返回 tool call你的应用/运行时执行工具把结果再喂回模型模型在多轮中完成任务或继续调用更多工具。在 Anthropic 的工具文档里这个“agentic loop”被直接描述为模型根据用户请求与工具描述决定是否调用工具并返回结构化调用工具可能跑在你自己的应用client tools或平台侧server tools本质都是“调用—观察—再调用”的循环。边界在哪Agent 最容易被忽视的真相是能力与风险是一体两面。一旦允许“写文件、跑命令、发消息”错误就会从“说错话”升级成“做错事”。因此官方指南强调需要 guardrails护栏、权限控制、认证授权与安全工程措施一起上。Multi-AgentMulti-Agent 通常指“多个分工不同的 agent”协作完成复杂目标有人负责检索有人负责写作有人专做代码实现有人做审核/验收。解决啥它解决的是单一 agent 在复杂任务里“既要规划又要执行又要检查”的负担通过“handoff/委派”把任务切成更可控、可审计的子块。怎么用在 Agents SDK 的描述里agentic 应用常见能力就包括使用外部上下文和工具、把任务 hand off 给其他专长 agent、流式输出阶段结果、并保留完整 trace 方便复盘。边界在哪Multi-Agent 并不天然更安全它只是把系统拆得更模块化。真正的安全来自“每个角色权限最小化行为可追踪人类可否决”。接口与流程MCP 与 Skills06 MCP**MCPModel Context Protocol**在官方介绍里被定义为连接 AI 应用与外部系统的开源标准。它让 Claude、ChatGPT 等 AI 应用可以连接数据源、工具与工作流包括“专用 prompts”并被形容为“AI 应用的 USB‑C 口”。解决啥它解决的核心麻烦是“集成碎片化”当你要把 LLM 接到文件、数据库、业务系统、内部工具时如果每个客户端/每个工具都私有对接会变成 N×M 的维护地狱MCP 试图用统一协议把这件事标准化。怎么用从规范本身看MCP 用 JSON‑RPC 2.0 在 Host / Client / Server 之间通信Server 可以向 Client 提供三类核心能力Resources、Prompts、Tools。更关键的工程细节是安全元数据MCP 的 schema 里定义了 ToolAnnotationsreadOnlyHint、destructiveHint、idempotentHint、openWorldHint 等但规范也强调这些只是“提示”不保证真实行为客户端不能把来自不可信 server 的 annotations 当作决策依据。边界在哪MCP 是“连接标准”不是“安全保险柜”。规范本身就提醒应当有 human-in-the-loop 能力UI 需要明确展示工具暴露与调用并允许用户否决敏感操作。07 Skills在 OpenClaw 的官方语境里Skills 是“教 agent 如何使用工具”的技能包每个 skill 是一个目录核心文件是带 YAML frontmatter 的 SKILL.md它包含说明、指令、示例等。解决啥Skills 解决的是“流程不可复用”如果你每次都靠临时 Prompt 去教 agent 怎么查日志、怎么开工单、怎么跑脚本你会不断重复提示、不断踩坑。Skill 相当于把经验沉淀成可复用 SOP标准作业流程。怎么用OpenClaw 给出了非常工程化的加载规则技能可以来自 workspace、项目级 agent skills、个人 skills、机器级 managed/local、bundled、以及额外目录并且有明确覆盖优先级workspace 最高。官方文档同时把“信任边界”写得很明确第三方 skills 应视为不可信代码启用前要阅读必要时在 sandbox 中运行。边界在哪Skill 不是工具本身它依赖工具与权限体系。你可以把“Skills 的指令”写得很漂亮但如果底下没有可用工具或被 deny、或者上下文/权限设计不当它仍然无法稳定交付。一句话区分MCP 更像“接口/协议”解决“工具与数据怎么接进来”Skills 更像“SOP”解决“接进来之后怎么做得更稳、更可复用”。平台化落地Claude Code 与 OpenClaw08 Claude CodeClaude Code的官方概览把它定义为“agentic coding tool”能读代码库、改文件、跑命令、集成开发工具同时覆盖终端、IDE、桌面与浏览器等多种入口。解决啥它解决的是“把 agent 装进开发者日常工作流”——让“会动手的编码助手”离代码、终端与项目上下文更近。怎么用它对“工具接入”的核心方式之一就是 MCP官方写明 Claude Code 可通过 MCP 连接大量外部工具/数据源MCP server 可以给它访问数据库与 API 的能力。Claude Code 同时把“权限与隔离”当作第一等工程问题权限规则支持 allow/ask/deny并强调某些目录写入仍会提示以避免破坏仓库/配置sandboxes 提供文件系统与网络隔离目标是减少频繁授权带来的“批准疲劳”并在边界外访问时触发提醒。Anthropic 的工程文章甚至给出一个量化佐证用户会批准大约 93% 的权限弹窗因此需要更好的机制来平衡效率与安全。边界在哪官方在 MCP 文档里直接提醒使用第三方 MCP servers 风险自担尤其是会抓取不可信内容的 servers可能带来 prompt injection 风险同时还提示某些传输方式如 SSE在其文档语境中已被标注 deprecated需要按最新文档为准。**这里的风险不是“理论恐吓”。**已有公开测试显示当模型总结网页时隐藏文本可能注入指令影响输出prompt injection甚至诱导生成恶意内容这类问题在“模型外部内容/工具”的组合里尤为需要防范。09 OpenClawOpenClaw 官方把自己定位为“自托管 AI assistant gateway”你在自己的机器/服务器上跑一个长期存在的 Gateway 进程把多个聊天渠道例如 WhatsApp、Telegram、Discord、iMessage 等连接到 agent并在本地掌握数据与运行边界。解决啥它解决的是“平台化与多渠道触达”同一个 agent/同一套会话与路由规则可以同时服务多个聊天入口同时 Gateway 作为控制平面集中管理 sessions、routing、渠道连接与事件流。怎么用从其核心概念页看Gateway 是一个 WebSocket server默认本地地址与端口在文档中有明示负责渠道管理、消息路由、会话上下文维护并提供控制 UI 与 webhook 等能力。OpenClaw 也把“工具、skills、sandbox、多 agent 路由”作为原生能力进行组织它的 agents 概念页把 agent 配置拆成 Model、Workspace、Tools、Skills、Sandbox 等明确组成部分便于做权限与隔离。边界在哪自托管的代价是你要承担更完整的安全责任。OpenClaw 安全文档把核心原则总结为“access control before intelligence”并给出非常直白的威胁模型你的助手可能具备执行 shell、读写文件、访问网络、代发消息等能力因此要先做身份与范围控制再谈模型能力。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

从迷宫到数独：用Python脚本自动化解决CTF Reverse中的‘体力活’

从迷宫到数独：用Python脚本自动化解决CTF逆向中的重复性挑战在CTF逆向工程领域，选手们常常会遇到一类特殊题目——它们逻辑清晰但求解过程机械重复。这类"体力活"题目消耗着解题者的时间和耐心，而Python脚本正是破解这类难题的利器…...

2026/4/9 18:01:36 阅读更多 →

Mysql的行级锁到底是怎么加的？督

1. 架构背景与演进动力 1.1 从单体到碎片化：.NET 的开源征程在.NET Framework 时代，构建系统主要围绕 Windows 操作系统紧密集成，采用传统的封闭式开发模式。然而，随着.NET Core 的推出，微软开启了彻底的开源与跨平台…...

2026/4/9 18:01:34 阅读更多 →

JAVA找出哪个类import了不存在的类贝

一、中间件是啥？咱用“餐厅”打个比方想象一下，你的FastAPI应用是个高级餐厅。 ?? 顾客（客户端请求）来到门口。- 迎宾（CORS中间件）：先看你是不是从允许的街区（域名）来…...

2026/4/9 17:59:29 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/11 9:28:07 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/12 5:45:54 阅读更多 →