谷歌放大招！Gemini 3.5重磅发布，多模态全面升级！

张

张建站

2026/5/21 10:49:09

10分钟阅读

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自新智元【导读】劈柴和Hassabis把半年大招一晚清仓了Gemini Omni任意输入生成视频3.5 Flash断层碾压一切Spark 7×24h云端替你干活。这次谷歌是要把OpenAI和Anthropic一起给埋了。谷歌I/O 2026大会火力全开刚刚劈柴和Demis Hassabis同台登场把攒了半年的大招一口气全部亮了出来。没有一丝悬念今晚最大的主角Gemini Omni正式亮相作为一个真正「全能」的大模型Omni可以接收任意形式的输入生成任意内容。并且首发支持视频输出堪称「视频版Nano Banana」。今晚的另一个高潮属于Gemini 3.5 Flash。在几乎所有的基准测试中3.5 Flash都实现了对自家前代旗舰Gemini 3.1 Pro的碾压。输出速度也直接翻倍对比GPT-5.5和Opus 4.7更是快了4倍有余。更强的3.5 Pro则会在下个月发布。此外亮相的还有一大波重磅新品· Antigravity 2.0全新独立桌面应用从IDE进化为Agent开发平台· Gemini Spark个人AI特工7×24h云端运行· Gemini App改版代号Neural Expressive改为算力计费· AI Ultra订阅计划新增100美元版本最高档从250降至200美元· 谷歌搜索25年最大升级接入3.5 Flash新增智能搜索框、自动生成mini应用等......毫不夸张地说这场I/O的干货密度堪称历年之最。Gemini Omni首发一个「全能」AI诞生了正如预热视频疯狂暗示的那样万众期待的Gemini Omni终于来了。Hassabis亲自登台宣布「我们正迈出下一个重要的一步——Gemini Omni这是一个可从任何输入创建内容的全新模型」。这个排面就说明了一切。谷歌这一次要打造的是一个「全能」的AI创作引擎。它把Gemini的智能与最强的生成式AI融为一体在世界理解、多模态和编辑三个维度上全部拉满。直白讲给到图片、音频、视频、文字的任意组合它就能生成一段高质量视频。而且可以用聊天的方式编辑视频。更关键的Omni不只是「看起来像」它真的在理解物理世界。Hassabis的原话是以前的系统在模拟重力、动能这些概念时经常翻车但Omni实现了一个「阶跃变化」。它把Gemini的「世界知识」和「推理能力」注入进了视频生成。给它一句prompt「用粘土动画解释蛋白质折叠」生成的视频里氨基酸链折叠成α螺旋和β折叠的每一步都科学准确视觉上是精致的定格动画。又比如为英文26个字母匹配对应物体。C是水豚CapybaraD是迪斯科球L是熔岩灯。Omni不是在拼贴素材它真的在把语言、图像和语义联结在一起。不得不说从逼真到有意义这一步跨得太大了。左右滑动查看在台上Hassabis掏出一段自拍视频开始现场魔改。手掌上随手画的圈变成了黑洞傍晚散步的街道变成了赛博朋克场景。一句话重写画面一句话改变世界。任何东西都可以成为创造全新现实的画布。再比如自拍掌中玩火一张纸画了一个圈立即变黑洞各种脑洞大开玩法都可实现。而且这不是一次性生成完事。你可以接着聊。Gemini Omni输出的视频角色保持一致物理逻辑成立场景记忆连贯。从一段原始的演奏画面开始。第二轮「把小提琴手传送到这张图片的环境里」附一张雪山草地的参考图场景瞬间切换动作、光影全部适配新环境。第三轮「把镜头切到小提琴手的肩膀后方」视角旋转但演奏动作和音乐完全连续。左右滑动查看不论场景如何变幻画面的主体都不会崩坏。更让人细思极恐的是Omni的输入灵活性。图片、文字、视频、音频任何参考物都可以混合输入生成一个连贯的输出。你甚至可以创建自己的Avatar让AI版的你出现在任何场景中说你的声音、做你没做过的事。目前Omni Flash已正式上线API版则会在未来几周开放。而更强的Omni Pro也在路上了。凭借着谷歌强大的整合能力Omini首发就接入了Gemini App、Google Flow和YouTube ShortsYouTube Shorts用户甚至可以免费用。Flash干翻Pro3.5重写了「旗舰」的定义Gemini Omni之后I/O大会本场另一重头戏就是全新旗舰Gemini 3.5 Flash的发布。谷歌给它的定义是迄今为最强的编码、智能体模型。现场劈柴亲口宣布「3.5 Flash在几乎所有基准测试中全面胜出Gemini 3.1 Pro」要注意3.1 Pro可是谷歌三个月前才推出的旗舰模型现在一个Flash级别的模型就把它碾了。没想到谷歌竟在如此短时间内交出了亮眼的成绩单Terminal-Bench 2.1编码76.2%GDPval-AA真实世界Agent任务1656 EloMCP Atlas大规模工具使用83.6%CharXiv Reasoning多模态理解84.2%以上四大基准测试相较于Gemini 3.1 Pro3.5 Flash堪称断层跃迁。在速度方面3.5 Flash独占一个象限289 tokens/秒比其他前沿模型快4倍还要多。另外3.5 Flash在一部分基准测试中性能媲美甚至是足以碾压GPT-5.5、Claude Opus 4.7。不得不说3.5 Flash又快又强几乎没有对手。参数太抽象不如看看下面这个真实的极限演示。只需一瞬间3.5 Flash就能消化一篇天书般的学术论文并写出一个带有完美交互的可视化网站。在智能体任务中通过Antigravity它可以完成多步工作流自动对铺屏的资产完成分类和命名。亦或是利用两个Agent在短短六小时内复现了AlphaZero论文并编写出一款可完整运行的游戏。93个Agent造出OS仅12小时可以看到3.5 Flash这一切能力的实现全部是借助全新Antigravity 2.0实现的。今天谷歌Agent开发平台Antigravity升级到了2.0从IDE变成了独立桌面应用彻底拥抱Agent-first设计。Varun上台给出一个让全场屏息的Demo。他让Antigravity搭载3.5 Flash从零开始构建一个操作系统。93个子Agent并行工作发出超15000次模型请求处理26亿个token12小时后一个完全空白的项目变成了功能完整的OS内核。调度程序、内存管理、文件系统每一行代码都是Agent写的Agent测的Agent审计的。API费用不到1000美元。接着他试着在这个AI写的操作系统上运行DOOM。第一次尝试失败了缺少视频和键盘驱动。于是他当场在Antigravity 2.0里输入修复指令Agent开始自动补写驱动代码。等了一会儿DOOM的画面出现在屏幕上全场沸腾。总结一下Antigravity 2.0带来核心升级包括——子Agent可以动态生成主Agent把任务拆成子任务分配出去互不干扰地并行跑异步任务管理让长耗时操作不再阻塞主线程Scheduled Tasks可设「定时任务」让Agent自动执行比如每天检查一次PR状态、每小时跑一次健康检查脚本。新的斜杠命令/goal让Agent一口气跑完/grill-me反过来让Agent搞清楚需求再动手/browser显式控制浏览器使用。不过这些都是内部已经跑通的能力。谷歌内部用Antigravity处理token的速度3月份是每天5000亿。如今每天狂飙3万亿。而且这个12倍加速版的Flash今天起在Antigravity里就能用了。3.5 Flash同时成为Gemini App和Google搜索AI Mode的默认模型面向全球所有用户。开发者通过Antigravity 2.0、Gemini API、Google AI Studio调用。企业用户通过Gemini Enterprise Agent Platform接入。更炸裂的事3.5 Pro正在内部测试中下个月发布。7x24h个人管家谷歌Spark终于来了今晚第三大发布当属于Gemini Spark劈柴给它的定位非常明确你的个人AIAgent。即使合上笔记本电脑它也不停歇。它跑在云端的专用虚拟机上可以实现7x24小时在线。Gemini Spark由Gemini 3.5Antigravity框架驱动深度整合谷歌「办公全家桶」。产品副总裁Josh Woodward上台演示了两个场景直接让全场陷入疯狂。第一个是工作场景输入一条指令「帮我起草一封给团队的邮件汇总过去一周关于Gemini Live发布的所有信息」。Spark自动跨Gmail、Docs、聊天记录抓取信息还调用了Woodward自己编写的一个「ghostwriter」技能让邮件自动匹配他的个人语气。整个过程在后台完成人类只需审核和发送。没错Spark支持自定义技能skills让它学会你的口吻、你的偏好、你的工作方式。第二个是生活场景规划一场街区派对。Spark收到任务后一步步执行。它创建了一个Google Sheets的RSVP追踪表直接连接Gmail谁回复了自动更新。给没报名的邻居Spark自动起草催促邮件生成草稿等确认后再发。然后它还生成了一个Google Slides的宣传deck连街区里要放充气城堡的信息都写进去了。全程没有打开任何一个App。不仅如此Spark还具备了强大的语音输入能力。现场Woodward掏出手机直接用语音甩出三个任务「找到所有跟Sundar的会议标成亮粉色」「给新邻居John写邀请函加入block party名单」「创建一个文档列出学年结束前要为孩子做的事按截止日期排序」。语音直接转成了文字指令Spark自动把一段连续的语音拆成了三个独立任务线程在后台并行执行。定价方面AI Ultra订阅每月100美元可用Spark Beta。最高级Ultra计划从250美元降到了200美元。Spark则会在下周率先对美国AI Ultra用户开放Beta版试用。这一夜谷歌撕开了ASI入口回过头看这场I/O真正让人后背发凉的不是某一个产品。是所有能力同时到位。全模态理解全模态生成全天候在线Agent——这三块拼图谷歌在一夜之间全部拼上了。Omni把一句话变成一个世界不需要人类提供任何素材。93个Agent从零造出操作系统不需要人类写一行代码。Spark 7×24小时替你工作不需要人类打开一个App。当AI不再需要人类「喂料」而是自己理解、自己决策、自己执行、自己迭代——这条路的终点叫ASI。没有人能给出确切的时间表。但今晚的Google I/O让所有人意识到一件事通往超级智能的路上已经没有「技术上做不到」这个障碍了。剩下的只是工程部署的速度。半年前我们还在争论AGI是不是泡沫。半年后谷歌已经在用Agent写操作系统了。这个行业的加速度已经超出了人类直觉能感知的范围。参考资料https://youtu.be/wYSncx9zLIUhttps://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/https://antigravity.google/blog/introducing-google-antigravity-2-0https://antigravity.google/blog/google-io-2026-feature-deep-dive编辑桃子摩西本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看