这是笔者读过最全的Auto-Research 综述,覆盖创造、写作、验证、传播全链路
AI 能自己写论文了但它真的懂科研吗——一篇 AI 自动科研全景综述的解读写在前面最近这一年AI 做科研这件事明显跨过了一道坎。笔者印象最深的几个数字是这样的有个叫 The AI Scientist 的系统生成一篇完整的研究论文成本压到了大约 15 美元另一个叫 FARS 的系统更夸张连续跑了 228 个小时烧掉 114 亿 token一口气产出 100 篇论文平均每 2.3 小时就吐一篇还有个 ARIS号称能跑通一个通宵工作流——晚上挂机跑 20 多个 GPU 实验自动剪掉那些没有证据支撑的结论再通过反复自审自改把一篇草稿的评审分从 5.0 拉到 7.5。这些系统传递出一个很清晰的信号AI 已经不只是帮你润色一段话、补一段代码那么简单了它开始尝试去编排整条科研流水线——从想点子、查文献、跑实验到写稿、模拟同行评审、准备宣传材料一条龙。但热闹归热闹这篇综述真正想戳破的是一个更深层的问题AI 越来越会生产科研产物却远没有学会判断这些产物到底靠不靠谱。看着新颖的点子一落地实现就蔫了能跑起来的代码实现的可能压根是另一个算法行文流畅的论文底下藏着站不住脚的结论自动写的评审意见读着头头是道实际上既宽松又容易被人钻空子。下面笔者就顺着这篇综述的框架先讲清楚它的研究背景和动机再把它梳理的相关工作一段段拆开说。上图是全文的总纲作者把 AI 在科研中的辅助工作切成四个阶段、八个环节。第一阶段「创造」包含想点子、文献综述、写代码做实验、画图做表第二阶段「写作」聚焦论文撰写第三阶段「验证」涵盖同行评审和反驳修改第四阶段「传播」则是把论文转成海报、幻灯片、视频、社媒内容、项目主页乃至可交互的论文智能体。一、研究背景为什么要从生命周期的角度看这件事任务定义先把这篇综述要谈的事说清楚。它关注的不是某个孤立的工具而是 AI 在整个学术科研生命周期里的角色。作者把这条生命周期定义成八个互相咬合的环节再归并成四个大阶段第一阶段是创造Creation也就是一个研究贡献被实际造出来的过程包含提出假设、收集证据、做实验、做科学可视化。具体拆成四个环节想点子S1、文献综述S2、写代码与做实验S3、做图表S4。第二阶段是写作Writing把创造阶段攒下来的东西组织成一份正式的学术稿件准备接受外部审视。这里只有一个环节论文撰写S5。作者特意把写作单独拎出来当一个阶段理由是——写论文绝不只是排版那么简单它是一个修辞 证据的组织过程需要的 AI 能力跟写代码、做实验完全不是一回事。第三阶段是验证Validation研究社区在这里挑刺、批判、反复打磨稿件对应同行评审S6和反驳与修改S7。把这两个环节合并成一个阶段是因为它们共同构成了主张被质疑、被辩护、被修订的社区机制。第四阶段是传播Dissemination把稿件和配套材料转化成更广人群能接触的形态海报、幻灯片、视频、社媒、项目页、可交互智能体统称 Paper2XS8。作者强调传播也配得上一个独立阶段因为这些东西本身就是有自己保真度和信任要求的知识产物不是论文的简单衍生品。值得注意的是虽然这八个环节是按时间顺序排的但整条生命周期并不是一条直线。第三阶段评审提的意见可能逼着你回到第一阶段补实验第四阶段做传播时又可能暴露出第二阶段写作里的歧义或错误触发返工。这些反馈回路是科研实践的核心对 AI 辅助流程尤其关键——因为一旦不显式检查错误会顺着环节一路往下传。研究背景与动机为什么非要用生命周期这个视角作者的论证笔者觉得挺有说服力。科研本来就不是一堆互相独立的任务的堆叠点子变成实验实验变成主张主张变成稿件评审变成修订论文变成面向公众的总结。早期引入的错误会在下游被不断放大尤其是当 AI 系统在不保留证据和出处的情况下源源不断生成看起来很合理的输出时。问题在于尽管研究智能体、写作助手、科学编程工具、自动审稿机、反驳系统、各种 Paper2X 应用层出不穷整个领域却一直缺少一个贯穿完整学术生命周期的统一分析。没有这样的全局视角你很难讲清楚AI 到底在哪些环节真能帮上忙在哪些环节会系统性翻车以及哪种部署方式在科学上才站得住脚。这就是这篇综述的核心动机。它截止到 2026 年 4 月号称是第一篇端到端覆盖完整学术科研生命周期的 AI 分析。五个核心发现通读全文作者反复在强调五个判断笔者认为这是整篇综述的骨架第一AI 的能力在任务结构化、有据可依、外部可校验时最强但一旦遇到需要真正的新颖性、隐性领域知识、长程推理或科学判断的开放式任务能力断崖式下跌。第二生产持续跑在验证前面。在每一个环节AI 产出看起来合理的东西的速度都远快于它证明这东西正确、忠实、有意义的速度。第三最可靠的部署方式是人来掌舵的协作而不是完全自动化。AI 可以减少检索、起草、编码、可视化、评审支持、传播这些环节里的机械摩擦但判断、解释、实验设计、论证和问责必须留在研究者手里。第四有效的系统越来越依赖分层架构——把探索、工具执行、验证组合起来。这说明编排、出处追踪、反馈设计跟模型规模一样重要甚至更重要。第五AI 在科研中的使用已经变成一个治理问题而不是一个检测问题。当 AI 辅助变成家常便饭真正要紧的问题是披露、归属、责任以及科学诚信到底有没有被守住。三点贡献这篇综述给自己定的三个贡献是其一提供一个横跨四阶段八环节的统一分类法既覆盖写作、编码这些成熟领域也覆盖反驳、科学可视化、研究传播这些被严重低估的领域。其二把整条生命周期上的工具、基准、方法族系统梳理了一遍展示这些系统是怎么从基于提示词的辅助一步步演化到检索增强、智能体化、微调、混合工作流的。其三识别出一系列横切的能力边界和开放挑战包括阶段交接处的忠实性、科学判断、可复现性、引用出处、治理、跨领域泛化、认知所有权等等。二、相关工作上方法族与文献梳理方式在进入具体环节之前作者先把整个领域常用的方法套路归了归类这部分对理解后面的相关工作很有用。五大方法族作者总结整条生命周期上的 AI 辅助系统反复复用的其实就是一小撮方法模式归成五个大族提示工程Prompt Engineering是把通用大模型适配到科研任务最简单的接口包括直接提示、思维链、角色分配、结构化模板、基于评分标准的指令、输出约束等等。因为不用额外训练它在头脑风暴、编辑、评审初稿、反驳提纲、社媒生成这些轻量任务上用得很广但缺点也明显——对提示措辞极其敏感而且通常缺少持久的事实依托。检索增强生成RAG把模型输出锚定在外部来源上论文库、引文图、代码仓库、基准记录、实验日志。它对文献综述、引用支持、证据核查、反驳生成这些需要来源归属的环节尤其重要。RAG 通过在推理时把证据喂给模型来减少幻觉但它并不能保证选出来的来源是正确的、版本一致的、被忠实呈现的。免训练的智能体方法Training-free Agentic给大模型加上规划、工具调用、记忆、自我反思、迭代执行让它在不更新参数的情况下跑多步工作流。深度文献探索、代码调试、实验编排、评审回应规划、Paper2X 工作流都靠它。它的强项在编排主要风险是——一旦检索、工具调用或自我批判出问题错误会传播。基于训练的方法Training-based针对环节特定的数据分布去专门化模型比如同行评审、科学稿件、代码仓库、引用语境、反驳轨迹。它在一致性、格式遵循、领域术语、任务特定判断上能有提升但高度依赖数据质量还可能过拟合到狭窄的基准或会议分布上。混合方法Hybrid把上面几族组合成一体化系统比如把 RAG 跟智能体规划耦合对领域子模块做微调或者在大工作流里塞一个基于提示词的控制器。混合系统现在越来越占主导因为科研工作流既要生成又要依托证据既要自主又要验证既要灵活推理又要环节特定的专门化。文献是怎么收集的作者用了三条互补的策略来构建语料一是在 Google Scholar、Semantic Scholar、arXiv、DBLP 上做系统性关键词检索二是从每个环节的代表性种子论文做滚雪球式引文追溯既往前追到奠基工作也往后追到最新系统和基准三是监控社区和代码仓库包括开源项目、精选阅读清单、基准排行榜把那些还没被正式发表收录的新兴工具捞进来。一篇论文要被收录必须同时满足三个条件瞄准生命周期里至少一个环节可以通过公开渠道访问提供了足够的方法或评测细节支撑批判性分析。一个值得一提的现象是收集到的语料分布很不均衡。绝大多数已记录的系统集中在第一阶段「创造」尤其是文献综述、编码和实验自动化然后才是写作、验证、传播。这种失衡既反映了研究成熟度也反映了发表可得性——创造阶段的工具更常被做成基准、被开源而传播类工具往往是商业的、流程特定的评测标准也不够标准化。发展时间线简单说一下这个领域的演进脉络。2024 年以前大多数系统瞄准的是孤立任务文献检索、科学问答、代码生成、领域特定的实验规划。早期的 Coscientist 展示了大模型智能体能在受限实验室环境里规划并执行科学工作流而 AlphaFold 3 这类领域基础模型则展示了 AI 改造专业科学发现的更大潜力。2024 年领域开始从孤立工具走向端到端研究智能体。The AI Scientist 提供了一个早期范例——一条覆盖想点子、跑实验、写论文、评审式打分的自动流水线。到 2025 年和 2026 年初领域进入快速专门化和基准化阶段。几乎每个环节都冒出了专用系统文献综合、论文转代码、自主实验编排、稿件撰写、同行评审、反驳支持、图表生成、研究传播。OpenScholar 推进了检索增强的科学综合并登上了 NatureAI Scientist v2 探索了更强的端到端自动科研FARS 展示了大规模自主论文生成。一些此前被冷落的环节也开始被重视比如反驳写作和科学可视化。作者的结论是这个领域现在的瓶颈已经不只是模型能力本身而是编排、评测、可靠性和治理。三、相关工作下八个环节逐一拆解下面进入这篇综述最核心的部分——把四个阶段、八个环节里的代表性工作梳理一遍。阶段一·创造创造阶段目前工具生态最丰富、基准覆盖最广但成熟度并不均匀。想点子的工具一大堆却深受构思—执行落差之苦文献综述靠检索增强和智能体综合在飞速进步但引用保真、覆盖完整性、多论文关系推理仍然难编码实验从代码生成、论文转代码、自主实验编排一路推进但在真正新颖的研究代码上性能依旧暴跌图表生成相对最不发达。S1 想点子想点子是整条生命周期的入口。这个环节最核心的矛盾是大模型能产出看着新颖、动机充分的点子却往往造不出在执行之后仍然可行、有区分度、有影响力的点子。技术路线大致分三种。第一种是基于大模型内部知识的直接生成。Si 等人做过一个很有影响力的研究找了 100 多位 NLP 研究者做大规模人评发现大模型生成的点子在新颖性上显著高于人类p 0.05。这个结果展示了大模型表层的生成能力但也立刻抛出了本环节的核心拷问——表面的新颖是否对应着可执行、有影响力的研究后续工作沿三条路加强直接生成用反馈回路做迭代精炼ResearchAgent、SciMON、Chain of Ideas引入学习到的质量信号Spark 用 60 万条 OpenReview 评审训了一个评判模型DeepInnovator 训了个 14B 模型在构思任务上对前沿模型报出 80%–94% 胜率以及把推理算力当成可控资源在测试时动态分配IRIS、FlowPIE。第二种是外部信号驱动的生成从关系结构、文本证据、时间机会三个角度给点子接地。知识图谱提供关系结构SciAgents、MOOSE-Chem后者从 51 篇高影响力论文里重新发现了假设论文检索把点子锚定在非结构化文献里SciPIP、IdeaSynth趋势分析瞄准研究机会的时间维度Nova。第三种是多智能体协作生成通过模拟科研社区的角色分工、批判、修订、辩论来提升点子质量。VirSci 构建了一个虚拟科学社区报出比单智能体基线更高的新颖性5.24 对 4.94。但多智能体扩展并非总是有益——有研究发现三轮批判修订往往就够了再多收益递减。更深层的隐忧来自人工蜂巢思维研究大模型生成的点子倾向于聚集在点子空间的狭窄区域多样性坍缩可能是当前模型的结构性属性靠堆智能体解决不了。评估方面IdeaBench、LiveIdeaBench、ResearchBench、AI Idea Bench 2025 等基准从不同维度量化。一个反复出现的模式是表面新颖性和实际可行性之间有鸿沟——IdeaBench 报告很多大模型新颖性能上 0.6可行性却低于 0.5。HindSight 用时间切分、基于影响力的评估进一步指出大模型当评委会高估那些听着新颖、但日后并未真正产生影响力的点子新颖性判断与后续真实影响力负相关ρ −0.29。S2 文献综述相比想点子文献综述更接地气、更可外部验证是 AI 辅助科研里成熟最快的领域之一。但两个限制始终存在系统能越来越好地检索和总结单篇论文却在忠实引用、覆盖完整性、多论文关系推理上仍然吃力。检索是一切下游综合的基础分三种模式。语义检索是基线LitLLM、PaperQA2引文图增强检索加入结构信号OpenResearcher 把 RAG 和图遍历结合智能体多步检索把检索从一次性排序变成迭代搜索过程PaSa 部署一个会发追问、不断精炼候选集的智能体逼近人类研究者探索陌生主题的方式。综合环节把检索到的论文转成结构化叙述。单趟系统证明了自动综述起草的可行性AutoSurvey、SurveyX结构感知系统把提纲规划从排版步骤提升为核心综合产物STORM 引入多视角提问构建大纲SurveyForge 从人写综述里学大纲启发式多智能体分解把检索、验证、组织、叙述写作拆成专门子任务LiRA、Agentic AutoSurvey、IterSurvey引用与编辑器感知系统则把综合和写作环境打通SurveyG 构建三层引文图CiteLLM 把无幻觉的参考发现直接嵌进 LaTeX 编辑器。不过引用保真依然是瓶颈——ScholarCopilot 报告 top-1 引用准确率只有 40.1%说明生成像模像样的相关工作文本仍然比把每个主张接到正确来源容易得多。深度研究智能体把文献探索当成一个迭代的智能体过程给个开放问题它规划子查询、检索阅读来源、更新内部状态直到能以足够置信度综合出报告。商业系统把这范式普及开了OpenAI、Google、Perplexity、Elicit开源的文献专用系统则把它适配到科学场景登上 Nature 的 OpenScholar 在科学文献基准上超过 PaperQA2 和 Perplexity Pro阿里的 Tongyi DeepResearch 专精长程深度信息检索。这些系统跨度很大从轻量事实查找到长程自主综合但都越来越收敛到同一个迭代架构规划 → 检索 → 阅读 → 更新 → 综合。值得注意的一个趋势是幻觉已经从明显捏造转向了微妙的错误接地——生成的主张可能看着引用齐全实际上并没有被忠实支撑。另外几乎所有基准和系统都瞄准 ML/NLP 文献化学、生物、物理的跨领域综合基本还没被测过。S3 编码与实验这个环节要把研究想法翻译成可执行实现、跑实验、分析证据。相比文献综述它要求 AI 系统跟外部环境打交道仓库、依赖、数据集、算力、测试套件、评测脚本。核心挑战不是大模型能不能写出像样的代码而是能不能产出语义正确的研究实现、跑出有意义的实验、可靠地解读结果。通用代码生成已经是当前大模型最成熟的能力之一——在评测真实 GitHub issue 解决的 SWE-bench Verified 上前沿系统现在已经超过 76%。但在标准软件基准上的高分并不直接意味着研究编码也准备好了。更难的变体立刻暴露出局限SWE-bench Pro 上掉到 23%SWE-EVO 上掉到 25%。论文转代码是研究特有的代码生成比常规软件工程更难因为论文常常混着自然语言描述、公式、伪代码、消融细节、领域惯例还把关键实现选择留作隐含。专门的基准把这个设定有多难量化得很清楚ResearchCodeBench 在 212 个新颖 ML 实现任务上最强模型只有 37.3% 准确率而且 58.6% 的错误是语义错误——代码能跑实现的却是错的算法或行为SciReplicate-Bench 报出 39% 的类似天花板。这种在熟悉软件基准上表现强劲、在新颖研究代码上性能低得多的反差定义了这个环节的能力悬崖。实验执行与编排方面MLAgentBench、MLR-Copilot、DS-Agent、AIDE 等系统提供规划、改代码、起任务、监控、迭代失败的基础设施。最近的系统把它推向更高吞吐和闭环RD-Agent 的研究员-开发者双智能体设计Karpathy 的 autoresearch 演示了高吞吐实验迭代闭环系统如 CodeScientist、Dolphin、NovelSeek 试图把假设生成、实现、执行、验证连起来。还有一条线把执行和搜索、学习信号耦合AlphaEvolve 通过大模型生成的变异加自动评测改进算法FunSearch 在演化搜索循环里让大模型生成的程序贡献了真正的数学发现。笔者觉得作者这里有句话点得很到位编码实验暴露出和想点子一样的更大模式——执行能力的提升速度快过了决定该执行什么所需要的科学判断。当前系统在规定好的任务池上表现不错但要它去选真正新颖的研究方向时就不那么可靠了。还有两个扎心的数字完全自主的结果里有 80% 是捏造的而下游评审只能抓住一半的方法学问题形成一个不断累积的验证赤字。S4 图表图表把实验输出、统计摘要、算法、概念设计转成可发表的研究产物。相比编码实验这个环节更多是忠实地呈现证据而非产生新证据。核心挑战是视觉上像模像样和科学上正确之间的落差——AI 生成的东西可能看着很专业却带着错误标签、误导性布局、无效的数值关系或领域记号错误。科学图表生成上方法图和框架图比标准结果图难得多因为前者需要忠实的空间组织、正确的信息流、领域专属符号。AutoFigure-Edit 从长文本生成可编辑的文本转 SVG 科学插图PaperBanana 用多个专门智能体做检索、规划、风格化、可视化、批判。结果图和数据可视化相对可控因为能锚定在结构化数据和可执行绘图代码上MatPlotAgent 用视觉反馈改进质量ChartGPT 把图表生成拆成顺序推理步骤。表格生成比图表更不成熟因为科学表格要满足更严格的语义约束——对比表要轴一致、方法分组公平、引用覆盖完整、数值转录正确消融表更要命因为它编码的是实验设计选择。AbGen 评估大模型设计消融研究的能力发现大模型生成的表格规划和人类专家判断之间有显著差距。数学公式、TikZ 图、算法伪代码对小错误特别敏感一个错位的符号、下标、箭头就能改变方法含义所以它们的鲁棒性比自然语言润色或标准可视化都差。TeXpert 揭示了这点随着 LaTeX 任务变复杂准确率从 78.8% 一路掉到 15%。阶段二·写作写作之所以单独成一个阶段是因为它要把第一阶段的产物组织成一个学术论证。它不是排版步骤稿件得选证据、搭主张结构、把贡献放进文献语境、把方法讲清楚到能复现、在外部审视前预判反对意见。AI 辅助写作已经从偶尔帮忙变成了主流科研实践。大规模语料分析估计多达 17.5% 的计算机科学论文摘要、13.5% 的生物医学摘要可检测到 AI 修改痕迹自报采用率更高——2025 年《自然》一项调查发现超过一半研究者会寻求 AI 写作帮助。半自动写作辅助覆盖从规划、起草到润色、修订的各个部分。主导范式正在从AI 替你写转向AI 陪你写——AI 处理机械或局部操作润色、引用格式、初稿研究者保留对新颖性、论证、实验解读、科学判断的责任。编辑器集成系统让这种协作更显式PaperDebugger 把多智能体系统嵌进 Overleaf另一条线强调认知投入和透明度ScriptShift 围绕来源转换而非直接生成文本来组织写作DraftMarks 给修订强度和 AI 生成内容提供可视化痕迹。完全自动论文生成则想越过局部辅助走向端到端稿件生产。端到端研究系统The AI Scientist、Agent Laboratory证明了产出完整论文式产物的可行性但输出常受限于论证浅、实验弱、新颖性不足。基准化的论文生成系统试图逼近人类评审标准——CycleResearcher 报告生成论文在 ICLR 量表上得 5.36逼近但仍低于被接收论文的均值 5.69。这个差距很重要它说明主要瓶颈不再是表面流畅度而是论证深度、实验严谨度和对评审的预判。笔者觉得这一节最精辟的一句话是AI 写作的核心失败模式不是语法不通而是无支撑的说服力——文本流畅、结构良好、看着有引用却没扎根在证据或科学判断里。检测工具的高误报率尤其对正式、非母语或重度编辑过的学术文风正逼着主流会议从检测转向声明政策。阶段三·验证验证阶段的特殊之处在于它引入了对抗性评估——评审者被期望去揪出无支撑的主张、方法学缺陷、缺失的对比、不清晰的写作、不足的新颖性。这让第三阶段成为 AI 辅助的高风险地带。S6 同行评审自动评审生成大致分四族微调评审模型DeepReviewer-14B、在 7.9 万条专家评审上微调 Llama-8B 的 OpenReviewer多智能体评审系统把评审拆成专门角色MARG、ScholarPeerRL 优化评审系统用更显式的训练信号REMOR、ReviewRL提示词系统提供轻量替代Reviewer2、ChatReviewer。整体看自动评审生成越来越结构化但评审式文本不该被误认为可靠验证——核心难点是批评是否准确、校准、扎根于稿件和相关文献。元评审生成要把多个评审意见综合成主席式的评估难点不在总结而在分歧下的决策——当评审者对贡献根本性分歧时大模型往往给出稀释的折中而不是站出来给一个有理有据的实质立场。评审者匹配相比之下是更合适的 AI 操作场景因为它辅助分配过程而非替代专家判断RelevAI-Reviewer 已在主流会议部署RATE 通过画像蒸馏改进基于专长的匹配。评估这块作者讲得很细笔者挑几个关键点。一致性上有进展——斯坦福 Agentic Reviewer 的 Spearman 相关达到 0.42跟人类之间的 0.41 相当。但一致并不够评审者可以一边一致、一边系统性地宽松、有偏、肤浅。研究显示大模型评审者会给出比人类高的虚高分AI 给 6.86人类给 5.70把 95.8% 的被拒论文误判为可接受。更可靠的部署方式是用大模型去改进人类评审而非替代——ICLR 2025 一项涵盖 22,467 条评审的随机研究显示大模型对评审的反馈在 89% 的情况下提升了评审质量评审者有 26.6% 的时候更新了评审且不影响接收率。对抗操纵让部署更复杂。简单的提示注入白底白字就能操纵大模型评审隐蔽内容注入能大幅抬高评审分操纵一小部分评审就能改变排名连良性形容词都能当对抗触发器。而基于检测的政策执行也很脆弱——有研究在 788,984 条 AI 写的评审上评估了 18 种检测算法凸显在单条评审层面识别 AI 生成文本之难。一句话总结普及已经跑在治理前面。S7 反驳与修改这是发表流程里唯一一个作者直接跟评审者的反对意见交锋的环节所以在认识论上很重要。核心挑战不只是生成有说服力的回应而是确保反驳有证据支撑、忠实于稿件并且后面真的去改了。评审意见分析把批评拆成可操作的关切缺实验、动机不清、基线不足等。ReviewMT 把同行评审建模成多轮长上下文对话覆盖 26,841 篇论文Re² 提供了一个一致性保证的全流程评审加多轮反驳数据集。实证研究显示反驳确实能实质影响结果尤其对边缘论文——ICLR 2024–2025 分析报告 75%–81% 的分数在反驳后不变17%–23% 提升只有约 1% 下降最常见的跃迁是从 5 到 6从边缘到可接受。自动反驳生成从把反驳当直接文本生成容易幻觉、漏点、不可验证转向分解成关切提取、证据检索、回应规划、最终生成。RebuttalAgent 用心智理论建模打造有策略说服力的回应报出平均 18.3% 的提升Paper2Rebuttal 引入以证据为中心的规划DRPG 提出分解-检索-规划-生成四步流水线用 8B 模型报出 98% 的规划准确率。笔者认为这一节最有价值的是关于问责的讨论。一项审计发现ICLR 2025 的作者在反驳期间平均每篇论文做出 11.8 个承诺但大约 25% 的承诺在最终版里没有兑现缺失的实验是最常见的食言。这暴露了贯穿全文的能力 vs 诚信张力AI 也许能生成可信、有说服力的回应但反驳的科学有效性取决于它的主张有没有被支撑、它的承诺后面有没有被实现。还有一个目前没自动化的大缺口——很多评审要求需要新实验而当前反驳系统普遍没法真的去生成新的实验证据反驳 → 回到编码做实验这个回路基本是断的。阶段四·传播传播之所以配得上一个独立阶段是因为它的输出是独立的知识产物不是论文的简单衍生品海报要把贡献压成一个视觉叙事幻灯片要支撑口头讲解视频要同步视觉/文字/语音社媒帖要在可达性和精确性之间平衡可交互智能体要把论文方法暴露出来供下游使用。核心挑战不是 AI 能不能给论文换个格式而是它能不能在适配新模态、新受众、新交互层级的同时保持科学保真。论文转海报早期系统确立了智能体化海报生成的可行性Paper2Poster 引入二叉树布局规划和画家-评论员反馈回路后续系统加入更强的设计与层级感知PosterGen 美学感知、P2P 专门智能体加指令数据最近转向编辑和统一操作APEX 支持细粒度交互编辑PosterOmni 统一多个海报任务。论文转幻灯片跟海报不同幻灯片随时间展开、要支撑演讲者表达关键挑战是保留论文论证的同时把修辞结构从书面陈述转成口头解释。早期数据集和流水线确立了任务DOC2PPT、PPTAgent 配 PPTEval 评测环境接地的精炼则弥合了符号规划和渲染幻灯片之间的鸿沟DeepPresenter 基于渲染图像而非内部推理来修订。多智能体和交互系统进一步把生成拆成专门子任务SlideGen、Auto-Slides、SlideTailor。论文转视频与演讲把传播从视觉产物扩展到多模态解释要协调幻灯片、字幕、旁白、光标运动、节奏有时还有数字人视频比海报幻灯片难得多。PresentAgent 提供端到端的文档转旁白视频流水线Paper2Video 引入论文-视频配对基准。但视频仍是最难的 Paper2X 格式之一——它要求至少四个模态协调当前系统最适合当产出同步演示素材供人审校的初稿生成器而不是无需编辑的终稿。论文转社媒让研究在发表渠道之外被发现需要比海报幻灯片更强的受众建模——给 ML 从业者的推文、给记者的通俗摘要、给潜在用户的项目页介绍强调的细节、用的词汇、对背景知识的假设都不一样。瓶颈不是文本生成本身而是受众自适应的保真要在不扭曲的前提下简化在不夸大的前提下强调贡献在保持吸引力的同时保留局限。这让社媒传播成了一个独特的信任问题——公众常常不读论文就读这些东西任何过度宣称、缺失的注意事项、误导性对比都会塑造大家对工作的认知。论文转智能体与工具这是个更新的方向把论文从静态文档变成可交互的智能体或工具读者由此变成可以查询、复现、改编、扩展工作的用户。Paper2Agent 是典型——分析论文和代码构建一个带工具、资源、提示的 MCP 服务器迭代测试出一个能让用户用自然语言交互的论文智能体。这把传播重新定义成操作性访问论文不再只是被读而是被查询和执行。当然这也带来新风险交互式论文智能体不仅要忠实总结论文还得正确执行工具、尊重原方法的局限、别把没支撑的外推当成有效结论。评估方面海报和幻灯片生成的评测基础设施最成熟视频评估较新。一个很值得玩味的发现是成本壁垒基本被消除了——0.005 美元一张海报token 用量比 GPT-4o 少 87%8B 模型在幻灯片上能跟前沿打平。所以这个阶段最便宜、最容易自动化。真正的瓶颈不是生成成本而是信任——研究者需要确信 AI 生成的公开产物保住了主张、注意事项和局限。最后作者把自己和五篇相近的并行工作做了对比笔者觉得这部分有助于理解这篇综述的定位。AI4Research 定义了理解、综述、发现、写作、评审五类任务跟本文的 S1–S3、S5、S6 重叠但本文新提升了图表、反驳与修改、传播三个独立环节。从自动化到自主性按自主性等级组织系统这个轴是互补的——本文的每个环节都能在不同自主性等级上实例化。LLM4SR 提出假设、实验、写作、评审四分视角结构接近但没单独建模反驳与修改这个反馈环节。专门的自动评审综述深度覆盖评审跟本文互补。AI 科学家综述聚焦自主或半自主的科学发现主要和 S1–S3、S5 重叠。作者强调先前的分类法常常把研究任务顺序罗列却把功能区分和反馈回路留作隐含。本文的四阶段框架把这些依赖关系显式化了——比如同行评审和反驳并不是简单跟在论文写作后面的孤立下游步骤它们能把工作流重新导回 S3 补实验、S4 改图表、S5 重构稿件同样S8 的传播产物可能暴露原始框架里的歧义要求修订主张、解释或视觉证据。笔者的几点感受读完整篇综述笔者最大的体会是这个领域现在最不缺的就是能产出东西的系统最缺的是能判断东西靠不靠谱的系统。作者反复在不同环节验证同一个判断——AI 在结构化、有据可依、外部可校验的任务上能力强劲一旦进入需要真正新颖性、隐性领域知识、长程推理或科学判断的开放任务能力就断崖式下跌。研究编码上 76% 对 37%–39% 的反差是所有环节里最尖锐的能力边界而且在四个以上独立基准上反复重现。它给出的最可信的前路不是全自动科学——AI 自己生成、验证、发表、推广而无人监督而是人来掌舵的可靠科研自动化——系统在扩大科研规模和速度的同时保住可追溯性、验证、专家判断和问责。具体来说未来的系统大概要整合四条设计原则在整条生命周期里维护出处把点子、证据、代码、图表、主张、评审、反驳、传播产物链起来尽可能用执行和检索接地用可验证信号替代纯文本的自我评判在阶段交接处设人类检查点因为那是错误最容易传播的地方让 AI 的参与透明可见好让读者、评审者、机构能评估一个研究产物到底是怎么被造出来的。按作者的话说——带着这些原则做AI 能放大人类的创造力和严谨不带这些原则它只会规模化地生产看着很合理、实际不可靠的研究产物。这话笔者是认同的。