当前位置:首页 > 行业动态 > 正文

谷歌推出多模态大模型旗舰版本Gemini Omini。

摘要: 谷歌在2025年I/O大会上发布了多模态大模型旗舰Gemini Omni,其名称源自拉丁语“全能”,能流畅处理文字、图片、视频与...
谷歌在2025年I/O大会上发布了多模态大模型旗舰Gemini Omni,其名称源自拉丁语“全能”,能流畅处理文字、图片、视频与音频,演示中,Omni不仅可识别手绘线条并生成动画,还能解析黑洞草图涉及的科学概念及蛋白质折叠结构,展现出在创意与科研领域的双重潜力,该模型已深度整合进Gemini App,作为统一的“智能底座”驱动多种服务,有望降低AI应用成本并提升语义一致性,行业评价其开启了智能人性化的新篇章。

在2025年度的Google I/O开发者大会上,Google DeepMind负责人、诺贝尔物理学奖得主德米斯·哈萨比斯(Demis Hassabis)正式揭晓了其多模态大模型家族的最新旗舰——Gemini Omni,这款模型被定位为Gemini系列中迄今为止功能最全面、能力最均衡的版本。“Omni”一词源自拉丁语,意为“全能”,这也恰恰反映出该模型在信息处理层面的广泛适应性:无论是文字、图片、动态视频还是实时音频,Omni都能以近乎人类直觉的流畅度进行识别、理解与互动。

在大会演示环节,Gemini Omni着实为在场观众带来了一系列技术突破的“高光时刻”,当用户仅凭手绘线条勾勒出一条鱼的轮廓时,Omni不仅能迅速识别出这个图形,还能即时为其生成环绕游动的跃动动画,就像在一张静止的纸上注入了生命,而在名为“弹珠世界知识”的演示中,原本抽象枯燥的科学知识点被精巧地转化为一颗颗弹珠,在仿若迷宫般的视觉管道中穿梭往来,形成了一场沉浸且充满趣味的知识可视化叙事。

更进一步,现场展示还包括对一幅天文级别的“黑洞素描”——这张草图描绘了强烈的引力透镜效应与吸积盘的物质轨迹,Omni迅速抓住了其中涉及的广义相对论与斯塔克尔伯格半径等相关物理概念,并基于此展开颇有深度的科普讲解,仿佛一位时刻在线、知识点高度密集的学科专家,而在生物科学领域,Gemini Omni的潜能同样震撼:面对蛋白质折叠等极其复杂的大分子课题,它不仅能准确判断折叠结构中的关键氨基酸位点,还能极具效率地生成三维推理过程与可视化解构,这一点极有可能为未来的药物研发与疾病机理探索提供实质性的AI辅助能力。

这项能力的意义不止于技术酷炫,用哈萨比斯自己的话来说,“Omni的发布不仅仅是模型的迭代,更是我们将AI从‘工具’向‘接口’转型的一次重要加速。”他强调,过去的大模型更像是一个等待被调用的机器仆从,Omni的出现则模糊了指令与交互之间的传统界线,让AI能够作为一个真正理解语境的伙伴直接嵌入人们的日常表达中。

在战略层面,谷歌已经将Gemini Omni深度整合进即将正式推向更多地区的Gemini App应用生态中,换言之,这款模型不再是某个冷僻研究Lab里的demo产品,而是成为了以亿计的终端用户每天与AI沟通的“默认智能引擎”,这意味着,此后几乎所有的内容辅助生成、视觉搜索、语音即时翻译以及个性化信息推荐都将由Omni模型作为统一的“智慧底座”来驱动运行,这种从“多样性模型干各种事”过渡到“统一底座干精巧事”的思路转变,有业内人士指出,可能导致未来一到两年内AI应用开发成本的进一步走低,并大幅提升多场景下的语义一致性体验。

值得注意的是,此次发布的时间点选在I/O年度会议现场,折射出格外清晰的信号:在生成式AI爆发式竞争的当下,各家都在奋力争夺“技术制高点”的目标,从OpenAI的GPT-4o系列到近期大放异彩的行业垂直模型,多模态理解早已成为各头部企业的必争赛道,而Gemini Omni的全能方向,从前期实测素材来看,更显优雅且奔放——它同时探索智力感知的可延展性与媒介表达的感染力,尤其是在创意产出与科学研究两个看似对立实则同源的领域,Omni同时展示出了激发艺术灵气和解析理性问题的双重潜力。

行业分析人士认为:当前智能大模型最终比拼的并不只是参数量或计算效率,而在于如何优雅地在不同媒体与视觉表现之间保持有效且不变的“意义变形”,在这个维度上,Omni凭借文字、图像、音频、视频的自由跳转能力,可能会承担起标准制定者和层级融合器的双重角色,据接近DeepMind实验室的消息人士透露,正在预研的下一代多模态数据格式或将被默认加载于Omni内部,进一步打通结构化和非结构化信息间的壁垒。

这项技术的普惠性也不容忽视,因Omni整合进通用App成为“默认中枢”,未来用户哪怕不具备任何技术背景,也可能只需对着手机画个模糊的涂鸦或拍张书桌照片,就能获得定制化的数据分析和逻辑建议——这让长期以来让普通人望而却步的高维技术生态有了落地的朴实接口,一位早期尝鲜者面对媒体感叹自己从“因为不知道如何表达而不敢用AI”,忽然变成了挥洒自如的视觉记录师和思路推演达人。

为了配合此次大规模升级,谷歌同时宣布将与部分重点高校与研究机构展开联合试点计划,帮助分布在不同学科(物理、生物、文艺创作)领域的学术界研究者优先获得模型使用权限,并深入定制其反馈微调策略,这不仅是商业项目之下的技术公测,更是一个包含收集“非标准真实用例”的开发布局,确保Gemini系列不局限于通用的产品场景,有机会服务于长尾的科学与人文问题推进。

从整体行业回响来看,多家技术专业媒体第一时间给出评价——“智能人性化新篇章的开启”,Omni的通才转向和智能聚合效应很可能会促生一次AI市场格局的修整,在真正走入全面部署之前,仍需解决的难题包括巨大算力成本带来的商业化成本分摊,以及在视频流式处理场景中可能诱发的高延迟问题,尽管如此,无论是业内人士还是现场媒体,倾向性的判断依然是:凭借着率先兼具完整感知与驱动交互的双逻辑框架,Gemini Omni极有可能在未来十二个月内成为影响我们每个人的技术节点。