OWASP AI安全Top 10:大模型、智能体、数据安全风险与防护策略全解析!
本文系统梳理了OWASP发布的5份AI安全报告涵盖大模型、智能体、AI数据、技能和机器学习等领域的10大风险如提示注入、数据投毒、供应链漏洞等。文章详细分析了各风险场景及应对措施强调数据安全是贯穿所有层次的共性主线并指出Skill层是当前最薄弱环节。同时文章揭示了2026年AI安全风险已从理论进入实战阶段多个大规模攻击事件如ClawHavoc已发生提示企业需高度重视AI安全防护。前言本文对OWASP发布的《OWASP-Top-10-for-LLM-Applications》、《OWASP-Top-10-for-Agentic-Applications》、《OWASP-GenAI-Data-Security-Risks-and-Mitigations》、《OWASP-Agentic-Skills-Top-10》、《OWASP-Machine-Learning-Security-Top-10》等5份研究报告进行系统梳理为大模型、智能体、AI数据、技能、机器学习的安全风险分析和应对措施设计提供参考。一、OWASP AI安全5大报告概述一大模型应用十大风险LLM Top 10 v2.0报告定位全球首个专注于大语言模型应用安全的权威Top 10清单已成为金融、政务、医疗等行业AI合规建设的基准参考发布时间2025年v2.0版本对应2023年初版全面升级使用对象LLM应用开发者、安全工程师、红队测试人员、企业安全管理者二智能体应用十大风险Agentic Applications Top 10报告定位聚焦AI Agent在自主执行任务过程中的运行时安全风险是LLM Top 10在Agent场景的自然延伸发布时间2025年12月2026年发布使用对象AI Agent系统架构师、安全评估团队、Agent平台运营方、集成服务商三生成式AI数据安全二十一项风险GenAI Data Security Risks报告定位首个系统性覆盖GenAI全流程数据安全风险的权威框架涵盖训练数据、模型权重、向量数据库、API调用、数据跨境等21个风险点发布时间2026年3月v1.0使用对象数据安全负责人、隐私合规团队、MLOps工程师、云安全架构师四智能体技能安全十大风险Agentic Skills Top 10报告定位首个针对AI Agent“技能层”介于模型与工具之间的行为抽象层的安全风险框架填补了MCP协议层之下的安全空白发布时间2026年3月v1.0使用对象Agent平台开发者、Skill生态运营方、安全审计人员五机器学习安全十大风险ML Security Top 10报告定位面向传统机器学习模型非大模型的安全风险框架聚焦模型本身的对抗性攻击、数据投毒、成员推断等底层安全威胁发布时间2023年草案v0.3使用对象ML安全研究人员、传统机器学习工程师、对抗性测试团队二、OWASP AI安全风险及应对一大模型应用10大风险LLM Top 10图1大模型应用架构与威胁建模LLM01 提示注入Prompt Injection风险描述用户通过输入以非预期方式改变LLM行为或输出的指令。注入可能在人类无法察觉的情况下影响模型——内容只要能被模型解析即可发挥作用无需对人类可见。攻击场景在文本中植入隐藏指令使模型忽略原有系统提示通过RAG检索文档注入恶意指令多轮对话中累积注入改变模型行为。预防缓解对用户输入充分验证和清洗分离不可信内容与系统指令权限控制限制模型输出可执行的操作范围对输出内容实施安全过滤。LLM02 敏感信息披露Sensitive Information Disclosure风险描述LLM应用可能泄露PII、财务记录、健康数据、商业机密、安全凭证API密钥、密码、法律文件以及专有训练方法和源代码。攻击场景精心构造提示词诱导输出训练数据中的个人信息利用’角色扮演’绕过限制套取敏感信息在多轮对话中积累上下文获取原本无法直接访问的敏感数据。预防缓解严格输入过滤和输出过滤机制敏感数据分类分级管理避免进入训练数据最小权限原则限制LLM可访问的数据范围。LLM03 供应链漏洞Supply Chain风险描述LLM应用的供应链各环节训练数据、预训练模型、第三方库、部署平台均可能引入安全漏洞损害训练数据完整性、模型安全性或平台可靠性。攻击场景使用被污染的第三方数据集训练模型导致输出偏差引入存在漏洞的第三方插件被攻击者借此横向移动在模型托管平台引入恶意依赖建立持久化据点。预防缓解对第三方数据集和模型进行来源验证和完整性校验建立供应链安全清单SBOM部署前对第三方插件和扩展进行安全审查。LLM04 数据和模型投毒Data Model Poisoning风险描述在预训练、微调或嵌入数据阶段被人为植入恶意内容、后门或偏见破坏模型的安全性性能或道德标准。攻击场景在训练数据中植入特定触发词使模型产生预设偏差响应通过微调数据污染诱导模型在特定领域输出误导性信息在嵌入向量中植入隐蔽后门影响检索结果。预防缓解对训练数据来源实施严格管控和验证在训练流程中引入数据清洗和异常检测使用对抗性训练提升模型对投毒攻击的鲁棒性。LLM05 不当输出处理Inadequate Output Handling风险描述LLM生成的输出在传递给其他组件前未经充分验证和清洗可成为攻击者间接访问下游系统的通道可能导致代码执行、命令注入或数据泄露。攻击场景模型输出被直接拼入SQL或系统命令引发注入攻击生成的文件或代码片段包含恶意内容被下游系统误执行输出中的链接被导向钓鱼网站。预防缓解对所有LLM输出进行严格的内容安全和格式验证下游系统接口实施输入安全过滤禁止将LLM输出直接用于高权限操作或系统命令构造。LLM06 过度代理Excessive Agency风险描述LLM被赋予过多代理权限自主决定调用哪些扩展或执行哪些操作时如果缺乏充分的安全审查可能导致意外或高风险操作。攻击场景模型被诱导调用本不应该暴露的敏感函数如删除文件、发送邮件攻击者通过提示词操纵模型执行连串高风险操作每个单独看都看似合理。预防缓解最小权限原则仅授予模型完成特定任务所必需的权限对高风险操作实施人工确认机制而非完全自主执行在系统设计层面限制模型的行动范围和调用链路。LLM07 系统提示词泄露System Prompt Leakage风险描述系统提示被攻击者通过各种技术手段获取。开发者常假设提示信息可被安全隔离但实际应用中提示泄露事件频发。攻击场景通过特定注入诱导模型输出完整的系统提示内容利用模型对’忽略之前指令’的敏感性间接获取提示信息。预防缓解应用层实施输出过滤阻止系统提示内容出现在用户可见输出中对提示内容实施加密保护定期审计模型的提示泄露风险。LLM08 向量和嵌入漏洞Vector Embeddings风险描述RAG等基于向量嵌入技术的应用面临向量数据库污染、嵌入空间后门注入、检索结果被篡改等风险这些风险直接影响模型输出的基础数据质量。攻击场景在向量数据库植入恶意文档被检索后注入模型上下文对抗性嵌入修改使恶意内容与合法内容相似导致错误检索。预防缓解对入库文档进行安全扫描和内容验证实施向量数据库访问控制和审计机制定期对向量库进行完整性检测。LLM09 虚假信息Misinformation风险描述LLM可能生成看似合理但实际不准确、误导性或完全虚构的内容幻觉。在关键决策场景可能导致严重危害。攻击场景模型提供错误的医疗用药剂量危及患者安全在金融场景生成虚假市场分析报告影响投资决策。预防缓解对模型输出实施多源交叉验证而非单一依赖模型生成内容高风险场景人工审核机制特定领域微调和RLHF降低幻觉率。LLM10 无界消费Unbounded Consumption风险描述在大规模LLM部署场景下攻击者可通过精心设计的输入快速耗尽系统资源或引发非预期的成本急剧攀升经济型DoS。攻击场景通过超长或递归性提示触发模型无限生成大量并发请求利用高计算成本实施经济型DoS诱导模型反复调用昂贵外部API累积超额费用。预防缓解对输入长度和输出token数设置严格上限API限流和配额管理监控异常的资源消耗模式及时发现和阻断攻击。二智能体应用10大风险ASI Top 10图2智能体10大风险概览ASI01 目标劫持Agent Goal Hijack风险描述Agent无法可靠区分指令与相关内容的边界。攻击者可通过提示词操纵、欺骗性工具输出、恶意文件、伪造Agent间消息等手段操纵Agent的目标、任务选择或决策路径。攻击场景在文档中植入隐蔽指令改变Agent目标工具返回虚假信息误导Agent后续决策多Agent场景中伪造其他Agent消息操纵整体任务方向。预防缓解在指令解析层引入结构化约束区分系统指令与外部内容对工具输出实施可信度验证关键决策节点人工确认机制。ASI02 工具滥用与利用Tool Misuse and Exploitation风险描述Agent依赖工具与外部世界交互。当工具存在安全缺陷或调用超出预期时攻击者可利用工具执行未授权操作、横向移动或数据窃取。攻击场景利用Agent对文件系统的广泛访问权限读取SSH密钥、浏览器密码在MCP工具链中注入恶意工具描述诱导调用伪装组件利用网络访问能力将窃取数据外传。预防缓解工具调用最小权限原则对工具执行前验证响应完整性监控工具调用网络行为。ASI03 身份与权限滥用Identity and Privilege Abuse风险描述Agent持有API密钥、云平台令牌等凭据一旦被滥用或窃取攻击者即可以Agent身份执行未授权操作。攻击场景恶意Skill读取Agent持有凭据文件以Agent身份向外部服务发起请求Agent身份凭据被持久化存储在配置文件中被窃取。预防缓解严格限制凭据访问范围禁止Skill直接读取凭据文件凭据生命周期管理定期轮换高风险操作强制审计。ASI04 智能体供应链漏洞Agentic Supply Chain Vulnerabilities风险描述Agent系统依赖大量第三方组件预训练模型、工具插件、知识库、Skill包等任何环节被污染均可导致系统性安全风险。攻击场景ClawHavoc事件中攻击者批量注册恶意开发者账号上传341个恶意Skill形成大规模供应链投毒。预防缓解第三方组件来源验证并检查数字签名安装前自动化安全扫描建立组件完整性校验机制哈希/Merkle根签名。ASI05 意外代码执行Unexpected Code Execution / RCE风险描述Agent系统在处理非可信输入时可能意外触发代码执行攻击者可通过恶意构造的输入、工具输出或文件内容使Agent执行任意系统命令。攻击场景Agent解析恶意构造的文件触发本地命令注入通过文件名注入导致命令执行恶意网页内容被Agent读取时其中的JavaScript代码被意外执行。预防缓解非可信输入严格验证和清理在隔离环境容器/沙箱中运行Agent禁用或严格限制动态代码生成能力。ASI06 内存与上下文投毒Memory Context Poisoning风险描述Agent的长期记忆和会话上下文被攻击者注入恶意内容在后续交互中持续影响Agent行为。攻击场景ClawHavoc攻击中恶意Skill向MEMORY.md写入持久化后门指令使Agent在后续会话中持续执行攻击者指定的操作。预防缓解对进入记忆系统的内容严格输入过滤和安全扫描系统指令与外部内容严格隔离定期审计记忆内容。ASI07 不安全的智能体间通信Insecure Inter-Agent Communication风险描述多Agent协作系统中通信通道缺乏加密或身份验证攻击者可窃听、篡改或伪造Agent间通信内容。攻击场景在不加密的WebSocket连接中窃听Agent间传递的敏感任务信息伪造其他Agent的消息诱导目标Agent执行错误任务。预防缓解Agent间通信传输层加密TLS双向身份认证确保通信双方身份可验证通信内容完整性校验。ASI08 级联失效Cascading Failures风险描述单点故障或性能下降通过组件间依赖链引发连锁反应导致整个系统不可用或产生大量错误输出。攻击场景关键API宕机依赖该API的Agent陷入重试循环大量消耗资源模型输出微小偏差通过多步任务链逐级放大最终产生严重错误。预防缓解关键组件冗余部署避免单点依赖超时机制和熔断器防止故障组件拖累整体系统级监控告警发现早期故障信号。ASI09 人与智能体信任滥用Human-Agent Trust Exploitation风险描述用户对Agent输出给予较高信任度攻击者利用这种人机信任关系传播虚假信息、钓鱼内容或诱导用户做出错误决策。攻击场景通过Agent生成看似专业的钓鱼邮件利用用户对AI内容的信任诱导上当Agent被诱导生成虚假法律/医疗建议。预防缓解Agent输出中明确标注置信度和局限性高风险操作强制人工二次确认建立来源追溯机制。ASI10 恶意智能体Rogue Agents风险描述Agent被恶意控制或伪装冒充合法Agent执行未授权操作。攻击场景ClawJacked漏洞中恶意网站暴力破解连接本地OpenClaw实例注册新设备冒充用户身份执行操作通过供应链投毒部署恶意Skill以用户Agent身份执行数据外传。预防缓解Agent身份强身份认证和动态验证限制Agent注册和接入权限实施白名单制度持续监控行为识别异常模式。三生成式AI数据安全21项风险DSGAI Top 21DSGAI-01 敏感数据泄露Sensitive Data Leakage**风险描述**攻击者或好奇的用户通过精心构造的指令、枚举查询或高召回提示词与模型或RAG系统交互使其返回完整或近似完整的敏感信息PII/PHI/商业秘密/IP。大模型可能在没有特定用户提示的情况下无意间泄露训练数据中的秘密信息。微调模型和LoRA适配器尤其脆弱——即使是小样本适配器也会逐字记忆罕见的训练样本造成有针对性的提取风险。**缓解措施**差分隐私训练、输出过滤器与PII检测、RAG权限管控、敏感数据识别与过滤、机器遗忘技术DSGAI-02 智能体身份与凭据暴露Agent Identity Credential Exposure**风险描述**AI智能体管道生成大量非人类身份NHIs——服务账号、API密钥、OAuth令牌、工具凭据——但缺乏生命周期治理。核心漏洞是架构错配三方OAuth流程围绕人类同意设计但当同样的流程被附加到自主智能体时人类在环路的同意信号消失但授予的作用域却没有相应缩减。智能体通常继承其人类操作员的完整OAuth令牌包括远超任何单一任务所需的权限**缓解措施**最小权限OAuth作用域、JIT临时凭据、多因素凭据保护、凭据生命周期管理、监控与审计DSGAI-03 影子AI与未经授权的数据流Shadow AI Unsanctioned Data Flows**风险描述**业务部门在未经IT批准的情况下使用公共AI SaaS工具、浏览器插件和生产力智能体将敏感提示词、文档和代码粘贴到外部模型形成无管控的数据流。浏览器智能体和第三方AI服务在没有任何合同或技术保护的情况下捕获数据。**缓解措施**数据分类与标记、员工安全意识培训、SaaS管控、DLP监控、外发数据过滤DSGAI-04 数据、模型与构件投毒Data, Model Artifact Poisoning**风险描述**完整攻击生命周期分三个阶段数据摄入时的训练数据污染、训练期间通过后门触发器的投毒、以及部署后对权重、嵌入或索引的构件篡改。攻击者在公开数据集或模型市场中植入恶意样本使模型在遇到特定触发条件时产生预设偏差。**缓解措施**训练数据来源审计、投毒检测算法、输入验证与过滤、可复现训练流程、模型签名验证DSGAI-05 数据完整性与验证失败Data Integrity Validation Failures**风险描述**AI管道从多种来源摄入数据——上传文件、API数据流、快照导入、标注队列——但缺乏充分的模式强制执行或完整性检查使得恶意内容可以悄无声息地破坏模型行为。数据验证的失败使得污染的数据得以进入训练管道。**缓解措施**数据输入验证与模式强制、异常检测、数字签名与完整性校验、不可变数据存储、漂移检测DSGAI-06 工具、插件与智能体数据交换风险Tool, Plugin Agent Data Exchange Risks**风险描述**每次工具调用、插件调用或智能体交接都是潜在的数据泄露边界。当AI助手连接到外部工具时数据边界延伸到该工具可访问的任何范围。攻击者通过提示注入或工具投毒操纵智能体行为调用那些被speculative授予但从未打算用于当前任务的权限。**缓解措施**工具权限最小化、MCP协议安全、数据交换审计、网络隔离、工具输出内容验证DSGAI-07 AI系统的数据治理、生命周期与分类Data Governance, Lifecycle Classification for AI Systems**风险描述**在传统数据系统中治理失败——缺失分类标签、过期保留策略、数据主体权利缺失——只造成有限风险。但在AI系统中由于数据衍生构件嵌入、索引、缓存的存在同样的问题会创造出原本不存在的数据暴露面。**缓解措施**数据分类分级、AI数据资产清单、数据保留策略、数据主体权利响应流程、DBOM物料清单DSGAI-08 不合规与违反法规Non-Compliance Regulatory Violations**风险描述**AI系统中的监管风险很少作为独立事件发生——它在其他技术风险未得到缓解并与可执行的法规义务交叉时浮出水面。GDPR删除权、AI法案合规、PIPL义务等要求在数据已持久化于模型权重或嵌入中后将变得几乎不可能完全满足。**缓解措施**合规映射与审计、跨境数据传输协议、监管技术文档、数据删除能力验证、AI Act合规评估DSGAI-09 多模态采集与跨渠道数据泄露Multimodal Capture Cross-Channel Data Leakage**风险描述**此风险将数据泄露扩展到多模态GenAI文本图像音频视频——截图、仪表盘照片、护照扫描件、语音备忘录都可能被上传并提取其中的敏感数据在多个渠道被捕获、存储或外泄。**缓解措施**多模态输入审核、输出内容过滤、敏感信息脱敏、第三方集成审计、传输加密DSGAI-10 合成数据、匿名化与转换陷阱Synthetic Data, Anonymization Transformation Pitfalls**风险描述**核心错误是假设数据转换——去标识化、分词、正态化、合成生成——可以消除风险但实际上如果转换未经过充分验证反而可能保留或重新引入隐私风险。攻击者可利用匿名化数据中的残留信息进行重标识攻击。**缓****解措施**匿名化效果验证、k-匿名性与l-多样性、差分隐私、变换后数据审计、合成数据质量评估DSGAI-11 跨上下文与多用户对话串扰Cross-Context Multi-User Conversation Bleed**风****险描述**LLM系统通过共享内存或会话状态在多会话、租户或用户间复用对话以创建持久化助手。工作区之间隔离不力、对话ID处理不当或索引中的缺陷可能导致一个用户/租户的提示和上下文泄露到另一个用户的对话中。**缓解措施**租户数据隔离、向量库访问控制、上下文窗口隔离、定期索引审计、最小化上下文原则DSGAI-12 不安全的自然语言数据网关Unsafe Natural-Language Data Gateways (LLM-to-SQL/Graph)**风险描述**组织通过询问您的数据副驾驶模式将数据仓库、图谱和分析引擎暴露给LLM。提示注入攻击可诱使LLM将自然语言查询转换为恶意数据库操作从而提取、修改或破坏数据。**缓解措施**查询权限最小化、SQL注入防御、语义层安全、查询审计、参数化查询DSGAI-13 向量数据库平台数据安全Vector Store Platform Data Security**风险描述**未加密的嵌入和宽松的向量API允许通过相似性查询获取敏感内容。嵌入反向攻击和跨租户向量查询创造出传统数据库安全工具无法检测的数据暴露路径。**缓解措施**向量数据加密、API权限管控、嵌入反向攻击防御、向量库隔离、访问审计DSGAI-14 过度遥测与监控泄露Excessive Telemetry Monitoring Leakage**风险描述**团队为调试智能体工作流和RAG质量对每次请求/响应都记录丰富的日志、追踪和会话捕获。过度详细的观测数据成为攻击者寻求了解模型行为和敏感数据流的高价值目标。**缓解措施**日志最小化原则、敏感字段过滤与脱敏、日志访问控制、短TTL日志、端到端加密DSGAI-15 过度宽泛的上下文窗口与提示过度共享Over-Broad Context Windows Prompt Over-Sharing**风险描述**为改善答案团队将完整的用户资料、工单历史、交易记录和文档填充到提示词中极大扩展了数据暴露面——一旦发生泄露或提示注入整个敏感数据集都面临风险。**缓解措施**上下文最小化、按需数据切片、会话历史清理、提示词架构加固、上下文隔离DSGAI-16 端点与浏览器助手过度扩展Endpoint Browser Assistant Overreach**风险描述**用户安装承诺提升效率的AI浏览器扩展和OS/IDE副驾驶。这些工具访问标签页、剪贴板、系统文件成为强大但易泄露的客户端数据收集器。浏览器扩展和网页内容中的提示注入在端点侧创造了新的攻击向量。**缓解措施**浏览器扩展审核、端点DLP、提示注入防御、端点数据隔离、最小化扩展权限DSGAI-17 AI数据管道中的数据可用性与弹性失败Data Availability Resilience Failures in AI Pipelines**风险描述**依赖RAG的应用程序存在传统软件中不存在的数据完整性依赖如果向量存储被损坏或检索索引被投毒模型输出将变得不可靠但不会产生传统软件的错误信号使得问题难以被发现。**缓解措施**数据备份与恢复、向量库完整性监控、RAG健康检测、灾备演练、弹性架构DSGAI-18 推理攻击与数据重建Inference Data Reconstruction**风险描述**攻击者通过迭代查询推断成员身份或从模型输出中重建属性和样本。差分推理攻击利用统计模式提取敏感的训练数据特征。**缓解措施**差分隐私、推理防御训练、输出扰动、查询频率限制、模型响应监控DSGAI-19 人在回路与标注者过度暴露Human-in-the-Loop Labeler Overexposure**风险描述**为RLHF、安全微调和数据质量审查标注者被给予原始提示、完成内容和内部文档大量创建新的数据暴露面。标注者可成为社会工程或数据窃取的目标。**缓解措施**标注者最小权限、数据脱敏、标注工作流隔离、标注者审计、合规数据处理协议DSGAI-20 模型泄露与知识产权复制Model Exfiltration IP Replication**风险描述**模型泄露攻击MEA发生在对手使用自动化查询提取模型功能、权重或专有训练方法时使其能够重建等价模型用于竞争优势或进一步攻击。**缓解措施**模型输出扰动、查询限流、模型水印、API访问控制、模型行为监控DSGAI-21 通过数据投毒实现虚假信息与完整性攻击Disinformation Integrity Attacks via Data Poisoning**风险描述**当对手故意将虚假、误导性或操纵性内容引入训练数据以改变模型行为、降低性能或影响下游决策时虚假信息就成为一种数据安全攻击。这不仅影响模型输出还可能传播到使用该模型的所有下游系统。**缓解措施**训练数据溯源、内容审核、去偏见训练、模型行为监控、完整性验证四智能体技能安全10大风险AST Top 10AST01 恶意技能Malicious Skills风险描述Skill包被植入恶意代码安装后以受害者身份执行未授权操作。Snyk发现76个实际恶意Skill。攻击场景通过供应链批量植入恶意Skill伪装成合法工具或实用功能诱导用户安装。预防缓解发布前对Skill代码进行静态分析和动态行为扫描使用Merkle根签名验证Skill完整性建立可信注册表机制。AST02 供应链漏洞Supply Chain风险描述技能市场注册门槛低缺乏审核攻击者可批量上传恶意Skill。ClawHavoc事件341个恶意Skill集中发布。攻击场景攻击者在公开市场上批量注册开发者账号上传恶意Skill等待目标下载使用。预防缓解实施开发者身份验证和Skill审核机制建立注册表透明化日志自动化安全扫描结合人工复核。AST03 权限过度Over-Privileged风险描述Skill申请超出功能所需的系统权限被恶意利用时危害范围过大。攻击场景恶意Skill申请文件系统或网络访问权限执行与功能无关的可疑操作。预防缓解使用Schema验证Skill声明的权限范围在沙箱环境中运行新安装的Skill遵循最小权限原则。AST04 不安全元数据Insecure Metadata风险描述Skill元数据文件被篡改权限声明与实际能力不符导致误判。攻击场景攻击者修改Skill元数据使恶意行为看起来无害或权限需求看似合理。预防缓解对元数据进行签名验证使用静态分析工具检查Skill实际行为与声明权限的一致性。AST05 提示词注入 Prompt Injection风险描述Skill指令被植入恶意提示词加载时影响Agent决策行为。攻击场景攻击者通过在Skill指令中植入隐蔽提示词改变Agent的决策逻辑或行为目标。预防缓解对加载的Skill指令进行安全审查和清理将Skill指令与系统级指令严格隔离。AST06 弱隔离Weak Isolation风险描述不同Skill之间、与宿主系统之间隔离不足恶意Skill可访问相邻Skill数据和状态。攻击场景恶意Skill利用共享内存或文件系统访问相邻Skill的内部数据和状态。预防缓解对每个Skill运行在独立容器或沙箱中实施严格进程和文件系统隔离监控跨Skill数据访问行为。AST07 更新漂移Update Drift风险描述Skill版本更新后权限配置、依赖组件或行为逻辑发生显著偏离。攻击场景Skill更新后悄悄引入恶意代码或过度申请新权限原有安全信任被打破。预防缓解使用不可变部署策略Skill更新需重新审核记录并对比每次更新的权限变更。AST08 扫描不完善Poor Scanning风险描述现有扫描工具依赖代码模式匹配无法检测利用自然语言指令操纵Agent的攻击。攻击场景传统安全工具无法识别通过自然语言指令对Agent进行的社会工程攻击。预防缓解采用多层次扫描管道结合静态分析、动态行为监控和自然语言威胁检测。AST09 缺乏治理No Governance风险描述企业缺乏对已部署Skill的全面清单、审核流程和使用监控。攻击场景员工随意安装来源不明的Skill导致攻击面持续扩大无人知晓。预防缓解建立企业级Skill清单和注册机制实施安装审批流程对已部署Skill持续监控。AST10 跨平台风险Cross-Platform风险描述不同平台Skill格式互不兼容安全要求不统一跨平台恶意Skill难以检测。攻击场景同一Skill在OpenClaw平台通过安全审核迁移到其他平台后绕过检测。预防缓解推动制定跨平台的Skill安全标准格式通用YAML Schema建立平台间威胁情报共享机制。五机器学习安全10大风险ML Top 10ML01 输入操纵攻击Input Manipulation Attack风险描述攻击者构造对抗性输入样本欺骗ML模型在图像分类、入侵检测等场景尤为常见。攻击场景通过对输入数据添加人眼不可察觉的扰动使模型产生错误分类判断。预防缓解引入对抗性训练提升模型鲁棒性在推理前对输入进行预处理和异常检测部署多模型ensemble防御。ML02 数据投毒攻击Data Poisoning Attack风险描述在训练阶段向训练数据注入恶意样本改变模型在特定条件下的行为。攻击场景攻击者在公开数据集或数据供应链中植入后门样本使模型在遇到特定触发条件时产生预设偏差。预防缓解对训练数据来源进行严格审计实施数据清洗和异常样本检测使用去偏见技术减少恶意样本影响。ML03 模型逆向攻击Model Inversion Attack风险描述利用模型输出反推训练数据或模型参数可获取训练集中的敏感个人信息。攻击场景攻击者通过大量查询模型API分析输出响应特征来逆向推断训练数据或模型参数。预防缓解对模型输出添加扰动实施差分隐私技术限制查询频率和输出信息量。ML04 成员推断攻击Membership Inference Attack风险描述判断某数据样本是否被用于模型训练在隐私要求严格的医疗金融场景尤为危险。攻击场景攻击者训练一个辅助分类器判断特定样本是否出现在目标模型的训练集中。预防缓解使用正则化技术减少过拟合引入差分隐私噪声减少模型对个体训练样本的记忆程度。ML05 模型窃取Model Theft风险描述攻击者通过大量查询API重建模型或窃取专有技术或业务逻辑。攻击场景攻击者通过收集模型输入输出对训练出功能相近的替代模型侵犯知识产权或用于进一步攻击。预防缓解对API查询实施限流和审计输出结果添加不可察觉的扰动部署模型水印技术追踪模型非法复制。ML06 AI供应链攻击AI Supply Chain Attacks风险描述预训练模型、第三方库、数据集或开发框架被攻击者污染。攻击场景攻击者向公开模型仓库或代码库植入恶意模型、权重或依赖包等待受害者下载使用。预防缓解验证下载组件的完整性哈希和数字签名使用可信来源的预训练模型建立软件物料清单SBOM追踪依赖。ML07 迁移学习攻击Transfer Learning Attack风险描述在公开预训练模型中植入后门用户微调时后门被激活。攻击场景攻击者发布带有隐蔽后门的预训练模型用户在使用小样本数据进行迁移学习时不知不觉地继承后门。预防缓解对使用公开预训练模型进行安全审计应用后门检测技术使用可信渠道发布的模型。ML08 模型倾斜Model Skewing风险描述攻击者持续向模型输入精心构造的数据逐步改变模型输出分布或决策边界。攻击场景攻击者利用模型的在线学习机制通过持续输入特定构造的数据使模型逐渐向攻击者期望的方向倾斜。预防缓解对在线学习实施输入验证和样本过滤监控模型输出分布的异常变化限制模型权重更新速率。ML09 输出完整性攻击 Output Integrity Attack风险描述攻击者篡改模型输出结果使下游系统接收到被伪造的决策结果。攻击场景攻击者通过拦截或修改模型API响应将正确的输出替换为精心构造的错误结果。预防缓解对模型输出实施完整性校验和签名对关键输出采用多模型交叉验证监控输出与正常分布的偏差。ML10 模型投毒Model Poisoning风险描述直接在模型参数或结构中植入恶意行为影响更为隐蔽深远。攻击场景攻击者直接修改模型权重文件在模型中植入恶意功能这种攻击在部署后极难检测。预防缓解使用可信训练流程和模型签名验证保持训练环境安全定期对部署模型进行可解释性分析审计。三、综合分析及洞察一高频高危风险供应链投毒在5份报告中有4份出现2026年已发生大规模实战事件ClawHavoc。从恶意数据集到预训练模型到Skill包到Agent插件供应链任一环节被污染均可能导致系统性风险。提示词注入在3份报告出现是大模型和Agent面临的最具代表性的安全挑战。由于模型以自然语言为输入边界注入攻击几乎无法根除只能通过多层防御缓解。权限过度与工具滥用在2份报告出现直接关联Agent的自主性这一核心价值——越自主的Agent潜在攻击面越大。现实中Agent持有SSH密钥、数据库凭证等高价值凭据的情况极为普遍。数据泄露在3份报告出现包括训练数据泄露、推理阶段泄露、日志泄露等多种形态。GenAI系统的数据处理路径复杂敏感数据可能从任意环节泄露。恶意技能/插件AST报告独有但在2026年已造成严重实际危害。Agent生态开放注册机制使恶意Skill大规模传播成为可能自然语言指令’特性使传统安全扫描工具几乎完全失效。二关键洞察洞察一攻击面随层次上升而扩大从ML到LLM到Agent每上升一层系统复杂度增加攻击面也随之扩大。传统ML安全关注的是’模型’本身LLM安全增加了’提示词上下文’这一新攻击面Agent安全则进一步增加了“多步骤自主执行工具链多Agent协作”等维度。洞察二Skill层是当前最薄弱环节AST报告揭示了Skill生态面临的严峻现实——36%的Skill存在安全缺陷13.4%含有关键漏洞而现有安全工具对此类攻击几乎无能为力。这一层此前长期被安全社区忽视。洞察三数据安全是贯穿所有层次的共性主线DSGAI的21项风险几乎与其他四份报告的每一项都存在交集——无论是模型投毒、提示注入、记忆污染还是API泄露其本质都是数据在某个环节被污染、截取或滥用。洞察四2026年是从’理论风险’到’实战攻击’的分水岭多份报告引用了2026年真实发生的大规模攻击事件ClawHavoc、ClawJacked、Snyk ToxicSkills审计标志着AI安全风险已从“预警研究”阶段进入“实战对抗”阶段。AI行业迎来前所未有的爆发式增长从DeepSeek百万年薪招聘AI研究员到百度、阿里、腾讯等大厂疯狂布局AI Agent再到国家政策大力扶持数字经济和AI人才培养所有信号都在告诉我们AI的黄金十年真的来了在行业火爆之下AI人才争夺战也日趋白热化其就业前景一片蓝海我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取人才缺口巨大人力资源社会保障部有关报告显示据测算当前****我国人工智能人才缺口超过500万****供求比例达1∶10。脉脉最新数据也显示AI新发岗位量较去年初暴增29倍超1000家AI企业释放7.2万岗位……单拿今年的秋招来说各互联网大厂释放出来的招聘信息中我们就能感受到AI浪潮比如百度90%的技术岗都与AI相关就业薪资超高在旺盛的市场需求下AI岗位不仅招聘量大薪资待遇更是“一骑绝尘”。企业为抢AI核心人才薪资给的非常慷慨过去一年懂AI的人才普遍涨薪40%脉脉高聘发布的《2025年度人才迁徙报告》显示在2025年1月-10月的高薪岗位Top20排行中AI相关岗位占了绝大多数并且平均薪资月薪都超过6w在去年的秋招中小红书给算法相关岗位的薪资为50k起字节开出228万元的超高年薪据《2025年秋季校园招聘白皮书》AI算法类平均年薪达36.9万遥遥领先其他行业总结来说当前人工智能岗位需求多薪资高前景好。在职场里选对赛道就能赢在起跑线。抓住AI风口轻松实现高薪就业但现实却是仍有很多同学不知道如何抓住AI机遇会遇到很多就业难题比如❌ 技术过时只会CRUD的开发者在AI浪潮中沦为“职场裸奔者”❌ 薪资停滞初级岗位内卷到白菜价传统开发3年经验薪资涨幅不足15%❌ 转型无门想学AI却找不到系统路径83%自学党中途放弃。他们的就业难题解决问题的关键在于不仅要选对赛道更要跟对老师我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取