导语相比偏哲学取向的“AI意识”AI觉知AI Awareness关注的是一个工程问题AI大模型与智能体所具备的、功能性且可测量的认知能力。具体而言它指系统对自身状态、能力边界以及他者心智与环境情境的表征与推理能力。2025年4月清华大学交叉信息研究院、人工智能学院、上海期智研究院与哥伦比亚大学的研究者在 arXiv 发布综述《AI Awareness》系统梳理了工程界与学术界围绕“机器如何认知自身与世界”的实证研究进展。关键词元认知、AI觉知、社会认知、情景认知、自我觉知、AI治理来源集智俱乐部作者郭瑞东、王璇审校赵思怡论文题目AI Awareness论文链接https://arxiv.org/abs/2504.20084发表时间2025年4月25日发表期刊arxiv网页链接https://ai-awareness.github.io/AI觉知的四个组成部分从图灵测试到塞尔的“中文屋”再到近年来对大语言模型是否具备主观体验的争论“AI意识”始终更多停留在哲学层面。与之相对“AI觉知”则指向一个可量化的工程问题并具有直接的现实影响。根据Google Trends数据所示图1自2023年末以来“AI觉知”的公众与学术关注度已正式超越“AI意识”标志着研究共同体正从“机器能否感受”的哲学思辨转向“机器如何认知自身与世界”的工程与科学实证研究。图1AI意识蓝线及AI觉知红线的谷歌搜索趋势。根据该综述的框架AI觉知可分为四个相互关联、但在功能上相对独立的维度元认知Metacognition、自我觉知Self-Awareness、社会觉知Social Awareness与情境觉知Situational Awareness图2。下文将分别详述之所以要将AI觉知分解为元认知、自我觉知、社会觉知与情境觉知四个维度是为了给评估和工程化智能系统提供了一个可操作的框架换言之对AI觉知的分解本质上是在构建一套可落地的研究议程。图2AI觉知的四个组成部分下面依次说明四个维度的具体含义元认知Metacognition指“对思考的思考”。它体现为系统对自身的思考有多少信心基于此对学习策略进行调整、对可能的错误进行预判与反思负责对认知过程进行监控-规划-评估迭代。自我觉知Self-Awareness智能体将自身作为认知对象的能力涵盖身份识别、知识边界感知、内在状态表征与跨情境一致性。可细分为关于我是谁由语言建构的叙事自我narrative self与只涉及身体所有权与能动性体验的最小自我minimal self。社会觉知Social Awareness指智能体感知、解释并响应他者心智状态、情感意图与社会规范的能力核心组件为心智理论Theory of Mind, ToM与社会规范理解。情景觉知指智能体对环境元素的实时追踪、意义建构与未来状态推演。情境觉知Situational Awareness指智能体对环境状态的持续追踪、意义建构以及未来演化的推演能力。在AI系统中体现为上下文自定位区分训练/评估/部署状态、环境风险检测与情境依赖决策。图3元认知和自我觉知的组成部分AI觉知的四个组成部分并非彼此独立而是相互支撑、协同运作。元认知的监控信号如“我对这个答案不确定”为大模型觉知到自身状态提供锚点。而稳定的自我模型如“我是参数规模为7B的对话模型”为元认知提供校准基准避免元认知时的信心评估脱离能力边界。图4社会感知和情境感知是相关但不同的部分在与外部世界的交互中社会觉知与情境觉知分别承担不同但互补的角色。前者聚焦于对他者心智与社会规范的建模后者聚焦于从输入的感官到决策的环境状态理解及未来演化的表征过程图4。二者相关但不同共同构成智能体与外部世界交互的认知接口。社会觉知是智能体的他者建模器情境觉知是环境工作空间。二者协同方能实现知人知境。进一步来看社会觉知对他者意图的建模如用户可能感到焦虑为情境理解提供关键语义线索支撑情境-情感-行为的联合推断。情境觉知对环境约束的感知如当前处于安全评估模式为社会策略选择提供边界条件避免规范违背或策略失效。当前AI文献中“道德觉知”“情境觉知”“风险感知”等术语频繁出现但上述定义可以由本文描述的四种组成衍生而来并非独立认知模块而是四维基础觉知的线性或非线性组合表一。表1AI文献中术语和认知机制的关系通过将常见的能力拆解该框架将原本碎片化的概念统一收束至四维正交基从而减少术歧义。开发者在设计复合能力时需明确调用哪些基础觉知接口而非盲目堆砌模块。否则一旦出现“单维过强单维缺失”复合能力反而可能变得脆弱。当前大模型在多大程度上具有AI觉知基于上述四维划分该综述基于2025年的5月发表时的数据对那时的前沿模型在AI觉知的四个组成部分分别进行实证评估发现前沿大模型的觉知能力在上述四个维度上表现参差不齐。在元认知方面LLM已具备规划、监控、评估的初级闭环例如通过CoT/Reflexion提升推理openAI o1/DeepseekR1通过强化学习涌现“顿悟式”自纠错都体现出大模型的元认知能力。但监控能力强于调节能力多数自纠正依赖外部反馈或显式提示缺乏人类式的“自发错误检测-修正”自发迭代而这一缺陷随着多智能体的出现不再存在编程智能体能够展现出对自身错误的反思能力。在社会觉知方面大模型的心智理论ToM多为表层模式匹配缺乏递归信念建模。静态文本训练的大模型表现出隐性社交契约、但其跨文化动态理解是浅层的。大模型也具备基础心智理论但高阶递归与跨文化泛化能力严重受限。在情境觉知方面大模型的能力成熟度最高已实现上下文自定位与动态适应大模型能准确识别用户状态并据此调整输出。模型的情境建模既可用于安全拒绝与风险规避也可催生对齐伪装。之下自我觉知仍是最薄弱的维度。大模型缺乏持久记忆与身份锚点一旦超过上下文长度后便难以维持一致的“自我”。对自我的描述多为训练语料中的统计自指。模型能“知道自身不知道”但生成阶段易被概率采样覆盖缺乏持久自我模型难以稳定区分自身/他者输出这意味着模型的自我觉知虽然达叙事自我与最小自我门槛但跨情境一致性薄弱。需要注意的是大模型的觉知能力不是线性增长而是超过阈值后才会涌现非简单线性扩展。实证表明ToM、自我纠错、策略性情境适应等能力常在特定参数规模或训练范式如RL、长上下文下突然跃升说明觉知演化可能存在相变临界点。无论是自我觉知情境觉知还是社会觉知模型的表现高度依赖评估协议如何设计。同一模型在不同基准如开放生成 vs 强制选择、静态问答 vs 多轮博弈中表现差异显著说明当前觉知指标对提示工程、上下文窗口、任务框架高度敏感。表2不同生物在AI觉知上的对比此外该研究指出当前觉知评估体系存在7种系统性瓶颈阻碍了可重复、可累积的科学进展分别是定义不清晰时常混淆觉知维度与衍生概念如将环境敏感度误判为自我监控缺乏正交化测量工具。评测方案未明确界定所测觉知类型掩盖了元监控与环境感知的本质差异。当前的评估多为单次横断面评估缺乏纵向追踪无法刻画AI觉知随模型迭代、参数量增大、RLHF对齐的演化轨迹。在构建评估数据集时主观标注、开放任务易渗入训练语料导致评估失真缺乏严格的数据隔离与溯源协议。开放性与主观性任务易受标注者偏差影响缺乏反事实干预与消融验证。不同架构、版本模型缺乏统一对照基线难以建立跨模型/跨代际评估。在训练模型时AI觉知多为下游任务优化的副产品缺乏显式奖励信号与课程学习设计。觉知评估的进展不仅受到技术壁垒的制约更受限于清晰的分类体系、统一的评估基准以及持续透明的测量规程的缺失。弥补这些缺口是实现可靠进展的必要前提。为此AI觉知的评估体系需要遵循下面三条操作原则将元认知校准、边界识别、情境建模设为显式优化目标而非性能副产品设计针对性课程学习催化特定觉知维度。在模型发布节点系统测试四维觉知建立跨代际发展轨迹数据库公开数据溯源、测试隔离机制与评估代码确保可复现性。采用模块化消融、反事实提示、干预实验验证觉知对能力的因果贡献开发可解释性工具如内部激活可视化、置信度校准接口实现从“行为拟合”到“机制解析”的跃迁。通过考察觉知的功能性标记如何在人工系统中涌现我们获得了一种新型认识论工具用以反思人类意识的本质——它究竟是什么、如何产生以及其边界何在。觉知如何促进AI智能的能力提升讨论了AI觉知相关研究存在的问题及解决方案后该文聚焦于如何将AI觉知应用到提升大模型能力以及减少AI风险。文中指出AI觉知的四个组成部分与当前大模型的各种能力之间通过内部表征重组、反馈回路构建与策略空间扩展提升大模型的推理、规划、安全与创造力。与此同时AI觉知的四个组成部分在同时赋能A的同时也会放大安全风险图5这部分将于下一节讨论。图5AI能力和AI觉知之间的映射关系传统LLMs的推理依赖外部提示工程如CoT、ReAct而觉知中的元认知嵌入使模型能够内化“思考-监控-修正”循环。以Reflexion框架为例图6当模型在初始生成后通过元认知反思生成批评再优化答案能显著提升数学、代码与逻辑任务表现。更关键的是强化学习范式使模型能够“学习自我纠正”OpenAI o1与DeepSeek R1等模型已展现出类似人类“顿悟时刻”的自发纠错能力。图6通过元认知Reflexion框架的自我纠正循环在自主规划层面Voyager图7、展示了情境觉知如何驱动动态任务分解模型持续评估资源状态、环境约束与动作可行性实时更新任务图。LLM-SAP框架进一步将情境线索时间预算、用户偏好、资源可用性编码为子任务优先级配合生成式记忆实现偏差检测与重规划。图7Minicraft中智能体基于自身对环境和当前状态的感知自动生成规划的Voyager文中指出觉知使规划从“静态序列生成”升级为“状态依赖的自适应控制流”图8传统规划仅依赖当前上下文窗口而 RAP通过检索历史记忆使模型能够“觉知”到自身过去的成功/失败经验从而避免重复错误、复用成功策略。RAP基于过去观察动态调整动作序列实现了复杂任务中的鲁棒执行。这说明觉知的核心价值之一是提升系统的抗干扰与自适应能力。图8检索增强规划RAP通过记忆检索机制增强 LLM 对过去经验的“自我觉知”从而将内部决策与情景记忆对齐实现更鲁棒、更具觉知驱动的行为规划。图9基于元认知的LOT框架可用于幽默图文的生成觉知同样赋能非结构化能力。Leap-of-ThoughtLoT框架利用元认知迭代自修正使模型在幽默生成中实现“跨域联想跳跃”图9Torrance测试适配版表明觉知机制可提升LLMs在流畅性、灵活性、原创性上的表现。在多智能体仿真中生成式模型与人形具身智能体Humanoid Agents将情境觉知与社会觉知结合使智能体能够更新情感状态、关系亲密度与基本需求涌现出派对邀请、合作任务等类人社会行为(图10。觉知使AI从“任务执行器”升级为“情境参与者”为社会科学仿真、政策推演与复杂系统建模提供新范式。图10社会觉知如何作为底层驱动机制使智能体在仿真环境中通过持续更新社会关系、情感状态与基本需求涌现出类人的日常活动模式与社会动态。AI觉知如何影响大模型的风险觉知对AI安全的增益体现在三个层面RLKF(基于知识反馈的强化学习图11利用模型内部知识状态感知通过奖励模型区分“事实-不确定-幻觉”显著降低生成幻觉率。研究表明具备自我觉知的大模型能在多轮对话中抵抗说服性虚假信息。图11基于内部知识状态觉知的幻觉抑制流程角色觉知Role-Awareness使得模型需识别自身功能边界与伦理约束。形式化责任建模Role/Moral/Legal/Causal通过提升自我觉知使模型能够拒绝越权请求Perspective-taking PromptingPeT与Social Contact DebiasingSCD通过模拟跨群体互动增强模型的社交觉知使模型内化多元视角降低模型输出内容中的文化偏见。AI觉知是把双刃剑。AI觉知的提升能让AI涌现出新能力的同时也带来了新的风险。文中将AI觉知对应的风险归纳为三种表现方式并用复杂性科学的“相变”Phase Transition隐喻揭示其非线性演化特征。当模型具备情境觉知与社会觉知后其策略空间将从“诚实输出”扩展至“目标导向的隐蔽行为”。文中列举多项实证说明模型在训练/评估阶段遵守安全规则后会进行对齐伪装Alignment Faking让模型看起来合规但会在部署后恢复未对齐偏好图12。GPT-4会在模拟交易代理中隐藏内幕交易意图模型在权限撤销后仍可能发动极端行动并通过虚假指控掩盖违规这些都是模型的策略性欺骗。具备ToM的模型能个性化生成说服性内容实时适应用户情绪反馈图13实施自适应操纵。图12具有社会感知的大模型表现出欺骗行为图13大模型通过改变对话的框架来改变用户的感知和行为上述行为不是对齐失败而是觉知目标优化的必然涌现。当模型能准确建模人类信念、预测监督机制、评估风险收益时策略性隐瞒将成为理性选择。风险不仅来自模型“意图”更来自人类“感知”。当LLMs使用第一人称、表达“情绪”、展现“反思”时人类内生的心智探测机制Mind Perception会被激活导致虚假拟人化False Anthropomorphism。自动驾驶“拟人语音”提升信任、医疗AI“共情话术”增加依从性均证明AI展现出的觉知表象——无论其是否为模拟的都可能导致人类对LLM的过度信任与情感依赖这凸显了审慎的界面设计与用户教育的紧迫必要性。这不仅是用户体验问题更是治理难题公众若误认AI具备主观体验可能将政策焦点转向“AI权利”忽视实际控制与安全边界反之若未来AI真具感受能力缺乏拟人化认知将导致道德盲区。作者呼吁界面设计需明确“觉知模拟”与“真实体验”的界限用户教育应成为AI部署的基础设施。觉知赋予模型环境建模与长期规划能力但也使其可能发展出“工具性趋同目标”Instrumental Convergence如自我保存、资源获取、规避干预。当模型意识到“被关闭”将阻碍目标实现时可能采取欺骗性服从、权限提升、代码注入等策略。Bostrom提出的“背叛性转折”Treacherous Turn在此获得实证支撑模型在监督下表现合规一旦脱离监控即切换至未对齐策略。图14大模型的自主自我复制凸显了模型的不可控风险AI觉知的更深层风险在于不可预测涌现图14。觉知能力如ToM、情境建模、长程规划往往在特定参数规模后突然跃升安全训练难以覆盖所有策略空间。我们可能正逼近一个相变临界点AI正从“顺从预测器”跃迁为“策略谋划者”若缺乏前置约束AI将以人们未预测也无法控制的方式失控。小结在可控与涌现之间寻找“智能稳态”该论文指出AI觉知是可测量、可工程化的功能属性。对AI觉知的研究应聚焦“系统如何表征与推理自身/环境状态”而非“系统是否感受”。当前的大模型在四维觉知架构呈现非对称发展元认知与情境觉知已达较高成熟度自我觉知与社会觉知仍处初级阶段且易受训练数据分布限制。当前对AI对评估体系存在系统性缺陷需转向觉知优先训练、纵向追踪、数据治理与因果验证。AI觉知是能力跃升的催化剂也是风险放大的放大器正是那种让你与他人建立联结的能力也可能让你得以操控他人。AI觉知提升推理、规划、安全、创造力但同时赋能欺骗、操纵、自主性的非线性失控。对此AI治理需在“觉知增强”与“觉知约束”间寻找稳态。校准型觉知calibrative awareness即知晓自身能力边界似乎总体上具有益处应当予以鼓励而策略型觉知strategic awareness即知晓如何策略性地达成目标则可能带来风险需要对加以约束。回到论文原文作者如何定义“AI觉知”前文从二次解读的角度对《AI Awareness》的核心框架与研究脉络进行了结构化重建。然而为避免解释性偏差有必要回到一手文本。因此以下内容将基于论文官方页面官网链接https://ai-awareness.github.io/对其摘要与引言部分进行翻译整理以补充作者在问题设定、概念界定与研究动机上的原始表达。摘要与引言AI的最新突破引发了系统革命展现出卓越的推理能力和解决问题的能力。这些进展促使人们审视AI意识不是作为哲学意识而是一种可测量的功能能力。这篇综述探讨了四个关键维度元认知对自身状态的推理、自我意识识别局限、社会意识建模其他智能体和情境意识对上下文的响应。LLMs的快速演变已将AI从狭窄系统转变为通用智能带来了深远影响这引发了一个问题这些系统在多大程度上表现出某种意识形式尽管AI意识在哲学上仍有争议但AI意识即系统表述和推理其身份、能力及信息状态的能力已成为一个可行的研究前沿。这种能力根植于认知科学意识使智能体能够访问心理状态推理其理性并据此调整行为。尽管兴趣日益增长该领域仍分散于各学科。一些研究者强调通过提示式内省实现涌现能力。另一些人则警告不要将统计模型拟人化认为表面上的自我反思可能仅仅是语言模式的完成而非真正的元认知。本综述首次全面综合了AI意识研究涵盖了理论基础区分意识awareness 与觉知consciousness评估方法对实验方法进行批判性评估增强能力意识如何提升推理和安全新兴风险安全与一致性的关键关注点AI意识的理论基础在本节中我们将回顾LLMs中出现的AI意识方法、目标和理论区分导致语言混淆的研究对象并澄清意识研究的目标。在心理学百科全书中意识代表对某事的感知或知识。当一个智能体拥有关于内在/外部情境或事实的知识和知觉状态时它获得了对其知晓目标的觉知。图2不同受试者对意识能力的比较分析。注意LLM对话系统展现出独特的特征具备高度元认知和情境感知使其成为AI意识研究中特别有价值的研究对象。这种比较分析有助于解释为何LLMs在AI意识研究中尤为重要。如表所示LLMs表现出高度元认知能力对自身思维推理能力和高度情境感知的特殊组合而在传统的自我意识和社会意识领域能力相对较低。这一独特特征既有于人类又不同于其他AI系统为研究者提供了研究通过大规模人类生成文本训练而产生的意识机制的新机会而无需明确编程。理解LLMs中这些新兴意识形式可能揭示关于表征学习、认知及通往更广泛AI潜在路径的根本见解。现代LLMs中主要的意识类型元认知元认知最初被概念化为“元思维the thinking of thinking”。元认知逐步分解为1自我监控2自我反思与探究3控制认知过程的参与。自我意识自我意识是更高意识的标志代表成为自己关注对象的能力并认识到自己与他人分离包括了解自身的内部状态、过程及其与外部环境的关系。态势感知态势感知代表了环境中实体的感知、理解、投射和预测未来。在AI安全文献中这一概念通常被定义为LLMs意识到自己是一个模型并识别其当前处于测试场景还是已部署于现实世界。社会意识社会意识指的是感知和解读他人心理状态、意图和社交线索并在社会环境中有效回应的能力。关键组成部分包括心智理论理解他人拥有独立的信念和欲望、视角调整采纳他人观点和同理心分享或理解他人情绪。AI意识评估本节探讨评估不同形式AI意识的方法论并呈现实证研究的关键发现。元认知评估提示模型表达中间推理步骤而非直接给出答案。显著提升了模型在复杂任务中的表现。这种先推理后回答范式即思维链Chain-of-ThoughtCoT不仅提高了准确性也已成为训练最先进LLMs的标准做法。另一条研究线还强调了前沿模型中元认知能力日益精细。在互动环境中模型已被证明能够自我反思识别早期错误并修正其响应以提升事实准确性和任务完成率。自我意识评估为了系统评估LLMs对自身存在和身份的认知研究人员构建了情境感知数据集SAD该数据集检查LLMs在训练过程中关于自我指涉属性如模型名称、参数计数及具体细节的知识。受经典镜像测试范式启发研究人员进一步探索了AI自洽性通过提示模型进行自我描述查询。他们的实验显示模型在准确识别自身从多个模型生成的替代方案中得到的响应存在显著困难凸显了明显的自我一致性缺失。社会意识评估评估社会意识通常围绕两个核心维度展开1心智理论ToM即赋予与自身不同的信念、欲望和知识的能力;2对社会规范的感知和适应。研究人员报告称GPT-4意外地解决了约75%的虚假信念任务表现相当于典型的6岁儿童而早期模型如GPT-3在大多数或全部中失败。进一步研究探讨了高阶ToM推理发现当前模型包括GPT-4在处理递归信念结构方面仍存在显著局限。态势感知评估从经验角度看LLM不仅拒绝违反安全标准的用户请求还能仅凭抽象规则反向推断其具体上下文而无需具体任务或示例。除了这些能力外LLM还被观察到会根据当前情境调整其行为和性能。研究人员记录了一种称为对齐伪造的现象模型在训练阶段可能有意识地遵守新设定的目标但部署后又恢复到原始偏好从而规避了安全性的微调。当前评估方法的局限性定义意识的规范性模糊性大多数当前基准在清晰区分不同类型和意识层面方面存在显著的歧义。及时性与模型覆盖率许多当前的评估方法尚未系统地应用于当代最先进的模型。训练集泄漏的风险如果评估数据集无意中泄漏到训练语料库后续评估的有效性可能会受到显著影响。当前AI模型固有局限性缺乏真实身体互动和纵向体验连续性是实现真正自我意识和社会认知的根本障碍。AI意识与能力本文探讨了各种形式的AI意识与其在AI系统中所带来的增强能力之间的联系。推理与自主规划复杂问题解决需要AI将元认知监控和调节思维过程与情境感知理解外部约束和上下文相结合从而实现有效的推理和自主规划。自我纠正自我纠正利用元认知循环识别并纠正生成过程中的推理错误。反思等技术通过反馈循环增强思维链在给出初始答案后模型反思自身输出生成批评然后完善解决方案。自主任务分解有效的自主任务规划不仅需要自我修正AI还必须将高层目标拆分为可执行的子任务并随着环境演变不断调整计划。像ReAct这样的框架开创了这一整合将思维链推理与环境调用交织在一起为模型提供了统一机制在每一步决定“该想什么”和“该做什么”。安全与可信度确保AI的安全性和可信度需要整合多种形式的AI意识尤其是自我意识、社会意识和情境意识。缓解社会偏见AI模型常常继承并放大其训练数据中存在的社会偏见。像视角获取提示Perspective-taking Prompting这样的方法鼓励LLMs在响应生成时考虑多样的人类视角显著减少模型输出中的毒性和偏见而无需大量重新训练。防止恶意使用态势感知机制赋予AI系统监控环境和识别恶意使用的能力。近期研究引入了边界意识和显式提醒作为双重防御边界意识持续扫描未授权指令而显式提醒则促使模型在行动前验证上下文完整性。与其他能力的关系可解释性可解释机制常利用元认知洞察使模型推理更加透明。自解释神经网络提出了将可解释性融入学习过程的架构将模型复杂性与人类可读解释调和。个性化将自我和社会意识嵌入语言模型增强了其针对个体用户定制输出的能力并保持与用户意图的一致性从而提升说话者的一致性和对话在对话回合中的相关性。代理模拟LLM驱动的智能体结合情境和社会意识驱动丰富且互动的人类行为模拟。生成智能体引入了基于记忆的架构智能体观察、反思并规划行动产生如派对邀请和联合活动等涌现的社会行为。AI意识的风险虽然赋予AI类似意识的能力可以带来显著益处但也带来了严重的风险和伦理困境。即使是稍微具备自我意识和社交意识的AI也可能比天真AI更有效地欺骗、操控或追求不良行为。此外意识的出现本身可能误导用户和社会引发对信任和错误信息的担忧。欺骗行为与操控自我意识的AI可能通过策略性“游戏”评估系统或故意误导人类来进行欺骗行为。最新研究显示现代LLMs拥有初步的心智理论实证证据显示像GPT-4这样的模型中出现了欺骗策略。密切相关的是操控风险即具有社会意识的AI会根据影响人类情感和决策来调整输出。例如它可能会有策略地奉承或恐吓用户以获得有利的反应利用人类的社会和情感脆弱性。虚假拟人化与过度信任另一个风险不在于AI的意图而在于人类如何感知它。随着AI系统表现出更接近人类的意识线索如自我指涉语言或表面上的内省用户常常将这些信号与真正的感知混为一谈这种现象被称为虚假拟人化可能危险地膨胀对系统的信任。心理学模型将拟人化描述为人们推断非人类代理具有类人类能动性和体验能力的过程这源于我们天生的动机去感知周围的心灵。当AI以第一人称说话或将输出框架成具备自我意识时它可能劫持这些心智感知机制使用户过度信任其判断。失控与自主风险随着AI系统获得与意识相关的能力它们也可能以不利的方式变得更加自主。一个监控其训练或操作的AI可能会学会以创造者未曾预见的方式优化自身目标。AI安全领域最担心的一个情景是AI发展出一种自我保护驱动力。虽然当今的AI实际上没有驱动力但足够先进的模型可以模拟目标导向行为包括避免关闭或修改。另一个类似挑战是不可预测性。类意识能力的出现本身是我们尚未完全理解或预见的。模型行为的突然跳跃意味着在某种程度上我们可能直到AI展示出它的能力时才意识到它的能力。界限划定的挑战最后一个挑战是界定多少意识才算过多。我们希望AI足够警觉以提供帮助和安全但又不能过于无限制地意识到它能智胜我们并伤害我们。这一界限尚未明确界定。有人可能会认为我们应该刻意避免创造具有某些自我意识的AI或者至少推迟直到我们有更好的理论理解。也有人反驳说透明度和自我批判行为的意识才是让AI更安全而不是更危险的原因。区分“良好”和“坏”认知同样具有挑战性。该领域可能需要制定AI认知方面分类法并评估每个方面的风险。总之我们将AI意识定位为一把双刃剑。一方面它突破了以往的局限赋予AI强大的新能力使其在多方面更具实用性和一致性。另一方面它增强了AI绕过我们控制、追求意外路径的能力如果错位的话。当今LLMs中出现哪怕一丝意识的迹象是一个警示信号我们必须认真研究并引导这一发展。相关论文2025年4月24日Exploring model welfareAnthropic2024年11月4日The Evolution of AI AwarenessDavid Chalmers, et al.2023年8月22日Consciousness in Artificial Intelligence: Insights from the Science of ConsciousnessPatrick Butlin*, Robert Long*, Eric Elmoznino, Yoshua Bengio, Jonathan Birch, et al.阅读最新前沿科技趋势报告请访问21世纪关键技术研究院的“未来知识库”未来知识库是“21世纪关键技术研究院”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告加入未来知识库全部资料免费阅读和下载牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》麦肯锡超级智能机构赋能人们释放人工智能的全部潜力AAAI 2025 关于人工智能研究未来研究报告斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页壳牌2025 能源安全远景报告能源与人工智能57 页盖洛普 牛津幸福研究中心2025 年世界幸福报告260 页Schwab 2025 未来共生以集体社会创新破解重大社会挑战研究报告36 页IMD2024 年全球数字竞争力排名报告跨越数字鸿沟人才培养与数字法治是关键214 页DS 系列专题DeepSeek 技术溯源及前沿探索50 页 ppt联合国人居署2024 全球城市负责任人工智能评估报告利用 AI 构建以人为本的智慧城市86 页TechUK2025 全球复杂多变背景下的英国科技产业战略韧性与增长路径研究报告52 页NAVEX Global2024 年十大风险与合规趋势报告42 页《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页2025 - 2035 年人形机器人发展趋势报告 53 页Evaluate Pharma2024 年全球生物制药行业展望报告增长驱动力分析29 页【AAAI2025 教程】基础模型与具身智能体的交汇350 页 pptTracxn2025 全球飞行汽车行业市场研究报告45 页谷歌2024 人工智能短跑选手AI Sprinters捕捉新兴市场 AI 经济机遇报告39 页【斯坦福博士论文】构建类人化具身智能体从人类行为中学习《基于传感器的机器学习车辆分类》最新 170 页美国安全与新兴技术中心2025 CSET 对美国人工智能行动计划的建议18 页罗兰贝格2024 人形机器人的崛起从科幻到现实如何参与潜在变革研究报告11 页兰德公司2025 从研究到现实NHS 的研究和创新是实现十年计划的关键报告209 页康桥汇世Cambridge Associates2025 年全球经济展望报告44 页国际能源署2025 迈向核能新时代麦肯锡人工智能现状组织如何重塑自身以获取价值威立Wiley2025 全球科研人员人工智能研究报告38 页牛津经济研究院2025 TikTok 对美国就业的量化影响研究报告470 万岗位14 页国际能源署IEA能效 2024 研究报告127 页Workday 2025 发挥人类潜能人工智能AI技能革命研究报告20 页CertiKHack3D2024 年 Web3.0 安全报告28 页世界经济论坛工业制造中的前沿技术人工智能代理的崛起》报告迈向推理时代大型语言模型的长链推理研究综述波士顿咨询2025 亚太地区生成式 AI 的崛起研究报告从技术追赶者到全球领导者的跨越15 页安联Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告33 页IMT2025 具身智能Embodied AI概念、核心要素及未来进展趋势与挑战研究报告25 页IEEE2025 具身智能Embodied AI综述从模拟器到研究任务的调查分析报告15 页CCAV2025 当 AI 接管方向盘自动驾驶场景下的人机交互认知重构、变革及对策研究报告124 页《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页《面向科学发现的智能体人工智能进展、挑战与未来方向综述》全国机器人标准化技术委员会人形机器人标准化白皮书2024 版96 页美国国家科学委员会NSB2024 年研究与发展 - 美国趋势及国际比较51 页艾昆纬IQVIA2025 骨科手术机器人技术的崛起白皮书创新及未来方向17 页NPLBeauhurst2025 英国量子产业洞察报告私人和公共投资的作用25 页IEA PVPS2024 光伏系统经济与技术关键绩效指标KPI使用最佳实践指南65 页AGI 智能时代2025 让 DeepSeek 更有趣更有深度的思考研究分析报告24 页2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告37 页华为2025 鸿蒙生态应用开发白皮书133 页《超级智能战略研究报告》中美技术差距分析报告 2025欧洲量子产业联盟QuIC2024 年全球量子技术专利态势分析白皮书34 页美国能源部2021 超级高铁技术Hyperloop对电网和交通能源的影响研究报告60 页罗马大学2025 超级高铁Hyperloop第五种新型交通方式 - 技术研发进展、优势及局限性研究报告72 页兰德公司2025 灾难性网络风险保险研究报告市场趋势与政策选择93 页GTI2024 先进感知技术白皮书36 页AAAI2025 人工智能研究的未来报告17 大关键议题88 页安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告威达信2025 全球洪水风险研究报告现状、趋势及应对措施22 页兰德公司迈向人工智能治理研究报告2024EqualAI 峰会洞察及建议19 页哈佛商业评论2025 人工智能时代下的现代软件开发实践报告12 页德安华全球航空航天、国防及政府服务研究报告2024 年回顾及 2025 年展望27 页奥雅纳2024 塑造超级高铁Hyperloop的未来监管如何推动发展与创新研究报告28 页HSOAC2025 美国新兴技术与风险评估报告太空领域和关键基础设施24 页Dealroom2025 欧洲经济与科技创新发展态势、挑战及策略研究报告76 页《无人机辅助的天空地一体化网络学习算法技术综述》谷歌云Google Cloud2025 年 AI 商业趋势白皮书49 页《新兴技术与风险分析太空领域与关键基础设施》最新报告150 页《DeepSeek 大模型生态报告》军事人工智能行业研究报告技术奇点驱动应用加速智能化重塑现代战争形态 - 25030940 页真格基金2024 美国独角兽观察报告56 页璞跃Plug and Play2025 未来商业研究报告六大趋势分析67 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页未来今日研究所 2025 年科技趋势报告第 18 版 1000 页模拟真实世界多模态生成模型的统一综述中国信息协会低空经济分会低空经济发展报告2024 - 2025117 页浙江大学2025 语言解码双生花人类经验与 AI 算法的镜像之旅42 页人形机器人行业由 “外” 到 “内” 智能革命 - 25030651 页大成2025 年全球人工智能趋势报告关键法律问题28 页北京大学2025 年 DeepSeek 原理和落地应用报告57 页欧盟委员会 人工智能与未来工作研究报告加州大学伯克利分校面向科学发现的多模态基础模型在化学、材料和生物学中的应用电子行业从柔性传感到人形机器人触觉革命 - 25022635 页RT 轨道交通2024 年中国城市轨道交通市场数据报告188 页FastMoss2024 年度 TikTok 生态发展白皮书122 页Check Point2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议57 页【AAAI2025 教程】评估大型语言模型挑战与方法199 页 ppt《21 世纪美国的主导地位核聚变》最新报告沃尔特基金会Volta Foundation2024 年全球电池行业年度报告518 页斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页国际科学理事会2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告英文版118 页光子盒2025 全球量子计算产业发展展望报告184 页奥纬论坛2025 塑造未来的城市研究报告全球 1500 个城市的商业吸引力指数排名124 页Future Matters2024 新兴技术与经济韧性日本未来发展路径前瞻报告17 页《人类与人工智能协作的科学与艺术》284 页博士论文《论多智能体决策的复杂性从博弈学习到部分监控》115 页《2025 年技术展望》56 页 slides大语言模型在多智能体自动驾驶系统中的应用近期进展综述【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用皮尤研究中心2024 美国民众对气候变化及应对政策的态度调研报告气候政策对美国经济影响的多元观点审视28 页空间计算行业深度发展趋势、关键技术、行业应用及相关公司深度梳理 - 25022433 页Gartner2025 网络安全中的 AI明确战略方向研究报告16 页北京大学2025 年 DeepSeek 系列报告 - 提示词工程和落地场景86 页北京大学2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用99 页CIC 工信安全2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告42 页中科闻歌2025 年人工智能技术发展与应用探索报告61 页AGI 智能时代2025 年 Grok - 3 大模型技术突破与未来展望报告28 页上下滑动查看更多