Skip to content

2025.05.21全球AI新闻速递

· 16 min

每日概要#

今日科技界的焦点主要集中在谷歌于其年度开发者大会(I/O)上密集发布的各项AI进展,涵盖了从多模态模型、视频生成、图像处理到AI智能体、增强现实(XR)平台以及核心产品(搜索、安卓、车载系统、Meet)的深度AI整合,展示了AI全面落地应用的决心。苹果也被曝出计划开放其AI模型给第三方开发者,预示着两大巨头在AI生态构建上的竞争升级。国内方面,美团推出AI编程工具,具身智能团队千诀科技获数亿融资,美图与阿里巴巴达成AI电商战略合作,这些动态共同描绘出AI技术加速向各行各业渗透、赋能效率提升和商业创新的趋势。

氪星晚报|叮咚买菜启动战略升级#

近日,叮咚买菜宣布启动自内而外的战略变革,并已取得阶段性成果。公司解构原有商品开发中心,设立10个由核心高管负责的独立事业部。App改版测试中新增“品质之爱”专区,并上线了“AI饮食管家”、AI大模型搜索等新功能,旨在通过AI技术提升用户体验和运营效率。

谷歌最强视频生成 AI 模型 Veo3 亮相:制作背景音、人物对话都不在话下#

在谷歌I/O大会上,谷歌发布了新一代视频生成模型Veo 3,这是其首个能生成视频背景音效的模型。Veo 3不仅能合成高质量视频,还能为场景自动配音,甚至生成人物对话,并在物理模拟和口型同步方面表现优异。该模型已向美国地区Gemini Ultra用户及Vertex AI企业用户开放,并集成至AI影视制作工具Flow中。为应对AI内容难辨问题,谷歌也推出了SynthID Detector用于检测AI水印。

AI 拍“大片”:谷歌发布电影创作应用 Flow,脚本、分镜、镜头控制都能做#

谷歌在I/O大会上发布了专为“AI电影创作”设计的应用Flow,整合了Veo、Imagen和Gemini等AI技术。Flow是一个面向内容创作者的叙事工具,可用于发想创意、生成片段,类似于动态分镜。用户可通过自然语言生成和微调视频,导入素材,并控制“摄像机”运动、角度、编辑镜头及添加转场。Flow具备素材管理系统,旨在提升AI视频创作的质量和效率。

美团要开放AI编程能力,将推出新产品NoCode#

美团近期将正式上线一款AI编程工具“NoCode”,定位Vibe Coding(氛围编程),由美团研发质量与效率团队开发。该工具面向非技术人群,用户通过对话即可让AI完成编码、部署任务,应用于数据分析、运营工具等场景。NoCode采用Code Agent架构,具备多步骤逻辑推理能力,是美团“AI at work”能力外溢的第一步,旨在降低中小商户数字化门槛,并计划未来逐步开放更多内部AI产品。

清华系具身大脑团队累计融资数亿规模,对标美国头部公司,已在行业头部厂商落地|硬氪首发#

具身大脑公司「千诀科技」近期完成新一轮数亿元Pre-A+轮融资,由钧山投资、祥峰投资和石溪资本投资。该公司是清华系团队孵化,对标美国Physical Intelligence,专注于通用具身智能技术。其自主研发的“具身大脑”系统强调多模态实时感知、持续任务规划和自主执行,具备跨环境、无预设、长时程特点,已在家庭服务、物流、商业运营等场景实现稳定运行,并与头部机器人厂商、消费电子公司等合作落地。

首款 Android XR 头显:三星 Moohan 初体验,手势追踪精准、画面清晰鲜艳、AI 助手强大#

谷歌 Android XR 眼镜原型初体验:单镜设计、轻薄无束缚,集成 Gemini 多模态 AI 助手#

谷歌 Android XR 平台最新进展:融合 Gemini AI 打造新一代智能眼镜生态,并将与更多合作伙伴打造眼镜产品#

谷歌在I/O大会上展示了Android XR平台的最新进展及其设备原型和与三星合作的首款头显Project Moohan。Android XR平台专为XR设备设计,深度融合Gemini AI实现“无接触辅助”。三星Moohan头显体验中,手势追踪精准,透视画面清晰,内置Gemini助手强大。谷歌的原型眼镜轻薄接近普通眼镜,采用单镜片显示,集成的Gemini能实时分析环境并提供信息,如识别书籍、导航等。谷歌宣布将与Gentle Monster、Warby Parker等品牌合作开发更多智能眼镜,并与三星深化合作,共同构建硬件参考平台和开发者生态。

谷歌 Gemini Live 登陆苹果 iPhone:让 AI“看懂”你的屏幕和摄像头画面#

谷歌宣布向iOS和安卓用户开放Gemini Live功能。该功能最初仅面向高级用户,现在扩大覆盖范围。Gemini Live可以实时识别并回应用户手机摄像头或屏幕上的内容,让AI能够“看懂”用户所指。用户只需展示截图或用摄像头对准物体,Gemini Live就能提供相关反馈和信息,极大地扩展了AI的交互方式。

谷歌安卓全能 AI 智能体 Astra 首秀:主动制定解决方案,代理操控手机#

在Google I/O大会上,谷歌展示了Project Astra计划,旨在为安卓手机打造“全能AI助手”。这款助手不仅能对话,还能理解用户情境,主动制定解决方案,并能代理用户操作手机应用,如查找手册、播放教程视频、查找邮件记录甚至打电话。Astra的核心技术是一个AI智能体,通过模拟屏幕点击和滑动控制应用,展现了AI作为操作代理的巨大潜力,未来有望全面集成到安卓体验中。

谷歌 Gemini AI 重塑 Android Auto 车载系统:自然语音交流、执行复杂指令等#

谷歌计划通过Gemini AI全面升级Android Auto车载系统,实现更自然的语音交互。Gemini能理解复杂指令,即使表述不清也能准确执行,如打开除霜器、规划路线、查找餐厅等,并支持多轮对话和后续问题。Gemini Live功能也可用于在驾驶中与AI交流。谷歌还与沃尔沃等合作,将车载手册与Gemini整合。Android Auto用户将率先体验Gemini集成,Google built-in体验将在今年晚些时候推出。

谷歌最强文生图 AI 模型 Imagen 4 亮相:比上一代快 10 倍,文字效果更好#

谷歌发布了其文生图AI模型的最新版本Imagen 4。谷歌宣称Imagen 4的生成速度比上一代快10倍,生成的图像更加精致、细节丰富且“AI味道”更少。此外,Imagen 4在生成文字和处理排版设计方面也得到了显著提升,进一步增强了其在图像创作领域的实用性。

网上买衣服可虚拟试穿,谷歌 AI 搜索新功能亮相#

谷歌搜索全新 AI 模式亮相:Gemini 2.5、个性化回答、深度搜索等#

谷歌搜索正式推出AI模式,现已在美国市场逐步上线。该模式整合了谷歌最新的AI能力,包括即将到来的Gemini 2.5模型,旨在提供更智能、主动、个性化的搜索体验。用户可以提出更长、更复杂的查询。AI模式未来将驱动AI概览,并提供个性化建议,如根据用户偏好或收件箱信息调整推荐。新功能还包括虚拟试穿(模拟衣物穿着效果),深度搜索(今年夏天上线),以及Search Live(实时图像搜索)。

谷歌 Gemini 2.5 Flash 轻量级模型官宣 6 月到来,2.5 Pro 随后将至#

谷歌公布了Gemini 2.5系列模型的新进展。轻量级模型Gemini 2.5 Flash将于6月初常规可用,更强大的Gemini 2.5 Pro稍后发布。Gemini 2.5 Flash在多方面优于前代,效率更高,能显示“思考过程”增加透明度。Gemini 2.5 Pro将引入增强推理模式Deep Think。新模型系列还将获得更自然的文本转语音功能。

古尔曼:苹果 iOS 19 拟向第三方开发者开放 AI 模型,力图复制 App Store 成功经验#

苹果允许应用开发者使用其AI模型开发应用:报道#

据报道,苹果计划在即将到来的WWDC大会上宣布向第三方开发者开放其AI模型,尤其是可在本地设备运行的小模型,通过提供SDK和框架,允许开发者将AI能力集成到其应用中。此举被视为苹果效仿App Store模式,旨在构建一个基于Apple Intelligence的AI软件生态,增强其硬件平台的吸引力,并追赶AI领域的竞争对手。更先进的AI功能和API接口预计将在后续iOS版本中逐步开放。

谷歌 Project Mariner 公布,AI 智能体将全面上线 Chrome、搜索、Gemini#

谷歌在I/O大会上公布了Project Mariner项目,这是一个面向网络的AI智能体,此前代号“Jarvis”。Mariner能够与浏览器及其他软件交互,管理多达10个并行任务,并能通过用户演示学习新任务。该智能体模式将集成到Chrome、搜索和Gemini应用中。目前,Mariner电脑使用工具已登陆Gemini API,支持通过MCP协议与多种应用API通信。谷歌演示了智能体如何在Zillow上搜索公寓、调整过滤器并预约看房。

谷歌 Meet 视频会议平台将上线 Gemini“AI 同传”,可还原声音、语气、情感#

谷歌宣布将实时语音翻译功能引入Meet视频会议平台,该功能基于Gemini AI。Gemini“AI同传”不仅能准确翻译语义,还能保留说话者的声音、语气和情感表达。目前已向Pro和Ultra订阅用户开放英语与西班牙语互译,未来几周将新增意大利语、德语和葡萄牙语,并计划支持更多语言。这项技术有望显著提升跨语言视频会议的沟通效率和体验。

美图获阿里 2.5 亿美元战略投资,将在 AI 与电商领域深度合作#

美图公司宣布获得阿里巴巴2.5亿美元可转债战略投资,双方将在电商平台、AI技术和云计算领域深度合作。阿里巴巴将优先推广美图AI电商工具,协助美图开发AI生图/视频工具,提高电商效率。美图未来三年将向阿里采购至少5.6亿元云服务。双方还将探索其他创新项目。此次合作旨在结合双方优势,在AI驱动的电商领域共同发展。

点评#

今天的AI新闻,尤其是谷歌I/O大会的密集发布,清晰地勾勒出AI技术正在以前所未有的速度和广度向终端产品和用户体验渗透。从基础模型(Gemini 2.5系列、Imagen 4、Veo 3)的持续演进,到核心产品(搜索、安卓、车载、会议)的全面AI化,再到前沿探索(AI Agent、Android XR、Embodied AI),谷歌展现了一个All-in AI的战略蓝图,特别是AI Agent和XR平台的结合,预示着下一代计算平台的形态正在逐步清晰。苹果开放AI模型的传闻,虽晚于谷歌,但也显示出构建生态、 leveraging开发者力量的战略必要性。国内方面,美团的AI编程工具和美图/阿里在AI电商领域的合作,是技术赋能产业的具体实践;而具身智能团队的融资和落地,则代表了AI走向物理世界的长期趋势。我们正经历一个AI从云端走向端侧、从技术概念走向普惠工具的关键时期,未来的竞争将不仅仅是模型能力的比拼,更是AI如何与具体场景、硬件、用户习惯深度融合,产生实际价值的生态之争。