2025.05.21全球AI新闻速递

每日概要#

今日科技界的焦点主要集中在谷歌于其年度开发者大会（I/O）上密集发布的各项AI进展，涵盖了从多模态模型、视频生成、图像处理到AI智能体、增强现实（XR）平台以及核心产品（搜索、安卓、车载系统、Meet）的深度AI整合，展示了AI全面落地应用的决心。苹果也被曝出计划开放其AI模型给第三方开发者，预示着两大巨头在AI生态构建上的竞争升级。国内方面，美团推出AI编程工具，具身智能团队千诀科技获数亿融资，美图与阿里巴巴达成AI电商战略合作，这些动态共同描绘出AI技术加速向各行各业渗透、赋能效率提升和商业创新的趋势。

氪星晚报｜叮咚买菜启动战略升级#

近日，叮咚买菜宣布启动自内而外的战略变革，并已取得阶段性成果。公司解构原有商品开发中心，设立10个由核心高管负责的独立事业部。App改版测试中新增“品质之爱”专区，并上线了“AI饮食管家”、AI大模型搜索等新功能，旨在通过AI技术提升用户体验和运营效率。

谷歌最强视频生成 AI 模型 Veo3 亮相：制作背景音、人物对话都不在话下#

在谷歌I/O大会上，谷歌发布了新一代视频生成模型Veo 3，这是其首个能生成视频背景音效的模型。Veo 3不仅能合成高质量视频，还能为场景自动配音，甚至生成人物对话，并在物理模拟和口型同步方面表现优异。该模型已向美国地区Gemini Ultra用户及Vertex AI企业用户开放，并集成至AI影视制作工具Flow中。为应对AI内容难辨问题，谷歌也推出了SynthID Detector用于检测AI水印。

AI 拍“大片”：谷歌发布电影创作应用 Flow，脚本、分镜、镜头控制都能做#

谷歌在I/O大会上发布了专为“AI电影创作”设计的应用Flow，整合了Veo、Imagen和Gemini等AI技术。Flow是一个面向内容创作者的叙事工具，可用于发想创意、生成片段，类似于动态分镜。用户可通过自然语言生成和微调视频，导入素材，并控制“摄像机”运动、角度、编辑镜头及添加转场。Flow具备素材管理系统，旨在提升AI视频创作的质量和效率。

美团要开放AI编程能力，将推出新产品NoCode#

美团近期将正式上线一款AI编程工具“NoCode”，定位Vibe Coding（氛围编程），由美团研发质量与效率团队开发。该工具面向非技术人群，用户通过对话即可让AI完成编码、部署任务，应用于数据分析、运营工具等场景。NoCode采用Code Agent架构，具备多步骤逻辑推理能力，是美团“AI at work”能力外溢的第一步，旨在降低中小商户数字化门槛，并计划未来逐步开放更多内部AI产品。

清华系具身大脑团队累计融资数亿规模，对标美国头部公司，已在行业头部厂商落地｜硬氪首发#

具身大脑公司「千诀科技」近期完成新一轮数亿元Pre-A+轮融资，由钧山投资、祥峰投资和石溪资本投资。该公司是清华系团队孵化，对标美国Physical Intelligence，专注于通用具身智能技术。其自主研发的“具身大脑”系统强调多模态实时感知、持续任务规划和自主执行，具备跨环境、无预设、长时程特点，已在家庭服务、物流、商业运营等场景实现稳定运行，并与头部机器人厂商、消费电子公司等合作落地。

首款 Android XR 头显：三星 Moohan 初体验，手势追踪精准、画面清晰鲜艳、AI 助手强大#

谷歌 Android XR 眼镜原型初体验：单镜设计、轻薄无束缚，集成 Gemini 多模态 AI 助手#

谷歌 Android XR 平台最新进展：融合 Gemini AI 打造新一代智能眼镜生态，并将与更多合作伙伴打造眼镜产品#

谷歌在I/O大会上展示了Android XR平台的最新进展及其设备原型和与三星合作的首款头显Project Moohan。Android XR平台专为XR设备设计，深度融合Gemini AI实现“无接触辅助”。三星Moohan头显体验中，手势追踪精准，透视画面清晰，内置Gemini助手强大。谷歌的原型眼镜轻薄接近普通眼镜，采用单镜片显示，集成的Gemini能实时分析环境并提供信息，如识别书籍、导航等。谷歌宣布将与Gentle Monster、Warby Parker等品牌合作开发更多智能眼镜，并与三星深化合作，共同构建硬件参考平台和开发者生态。

谷歌 Gemini Live 登陆苹果 iPhone：让 AI“看懂”你的屏幕和摄像头画面#

谷歌宣布向iOS和安卓用户开放Gemini Live功能。该功能最初仅面向高级用户，现在扩大覆盖范围。Gemini Live可以实时识别并回应用户手机摄像头或屏幕上的内容，让AI能够“看懂”用户所指。用户只需展示截图或用摄像头对准物体，Gemini Live就能提供相关反馈和信息，极大地扩展了AI的交互方式。

谷歌安卓全能 AI 智能体 Astra 首秀：主动制定解决方案，代理操控手机#

在Google I/O大会上，谷歌展示了Project Astra计划，旨在为安卓手机打造“全能AI助手”。这款助手不仅能对话，还能理解用户情境，主动制定解决方案，并能代理用户操作手机应用，如查找手册、播放教程视频、查找邮件记录甚至打电话。Astra的核心技术是一个AI智能体，通过模拟屏幕点击和滑动控制应用，展现了AI作为操作代理的巨大潜力，未来有望全面集成到安卓体验中。

谷歌 Gemini AI 重塑 Android Auto 车载系统：自然语音交流、执行复杂指令等#

谷歌计划通过Gemini AI全面升级Android Auto车载系统，实现更自然的语音交互。Gemini能理解复杂指令，即使表述不清也能准确执行，如打开除霜器、规划路线、查找餐厅等，并支持多轮对话和后续问题。Gemini Live功能也可用于在驾驶中与AI交流。谷歌还与沃尔沃等合作，将车载手册与Gemini整合。Android Auto用户将率先体验Gemini集成，Google built-in体验将在今年晚些时候推出。

谷歌最强文生图 AI 模型 Imagen 4 亮相：比上一代快 10 倍，文字效果更好#

谷歌发布了其文生图AI模型的最新版本Imagen 4。谷歌宣称Imagen 4的生成速度比上一代快10倍，生成的图像更加精致、细节丰富且“AI味道”更少。此外，Imagen 4在生成文字和处理排版设计方面也得到了显著提升，进一步增强了其在图像创作领域的实用性。

网上买衣服可虚拟试穿，谷歌 AI 搜索新功能亮相#

谷歌搜索全新 AI 模式亮相：Gemini 2.5、个性化回答、深度搜索等#

谷歌搜索正式推出AI模式，现已在美国市场逐步上线。该模式整合了谷歌最新的AI能力，包括即将到来的Gemini 2.5模型，旨在提供更智能、主动、个性化的搜索体验。用户可以提出更长、更复杂的查询。AI模式未来将驱动AI概览，并提供个性化建议，如根据用户偏好或收件箱信息调整推荐。新功能还包括虚拟试穿（模拟衣物穿着效果），深度搜索（今年夏天上线），以及Search Live（实时图像搜索）。

谷歌 Gemini 2.5 Flash 轻量级模型官宣 6 月到来，2.5 Pro 随后将至#

谷歌公布了Gemini 2.5系列模型的新进展。轻量级模型Gemini 2.5 Flash将于6月初常规可用，更强大的Gemini 2.5 Pro稍后发布。Gemini 2.5 Flash在多方面优于前代，效率更高，能显示“思考过程”增加透明度。Gemini 2.5 Pro将引入增强推理模式Deep Think。新模型系列还将获得更自然的文本转语音功能。

古尔曼：苹果 iOS 19 拟向第三方开发者开放 AI 模型，力图复制 App Store 成功经验#

苹果允许应用开发者使用其AI模型开发应用：报道#

据报道，苹果计划在即将到来的WWDC大会上宣布向第三方开发者开放其AI模型，尤其是可在本地设备运行的小模型，通过提供SDK和框架，允许开发者将AI能力集成到其应用中。此举被视为苹果效仿App Store模式，旨在构建一个基于Apple Intelligence的AI软件生态，增强其硬件平台的吸引力，并追赶AI领域的竞争对手。更先进的AI功能和API接口预计将在后续iOS版本中逐步开放。

谷歌 Project Mariner 公布，AI 智能体将全面上线 Chrome、搜索、Gemini#

谷歌在I/O大会上公布了Project Mariner项目，这是一个面向网络的AI智能体，此前代号“Jarvis”。Mariner能够与浏览器及其他软件交互，管理多达10个并行任务，并能通过用户演示学习新任务。该智能体模式将集成到Chrome、搜索和Gemini应用中。目前，Mariner电脑使用工具已登陆Gemini API，支持通过MCP协议与多种应用API通信。谷歌演示了智能体如何在Zillow上搜索公寓、调整过滤器并预约看房。

谷歌 Meet 视频会议平台将上线 Gemini“AI 同传”，可还原声音、语气、情感#

谷歌宣布将实时语音翻译功能引入Meet视频会议平台，该功能基于Gemini AI。Gemini“AI同传”不仅能准确翻译语义，还能保留说话者的声音、语气和情感表达。目前已向Pro和Ultra订阅用户开放英语与西班牙语互译，未来几周将新增意大利语、德语和葡萄牙语，并计划支持更多语言。这项技术有望显著提升跨语言视频会议的沟通效率和体验。

美图获阿里 2.5 亿美元战略投资，将在 AI 与电商领域深度合作#

美图公司宣布获得阿里巴巴2.5亿美元可转债战略投资，双方将在电商平台、AI技术和云计算领域深度合作。阿里巴巴将优先推广美图AI电商工具，协助美图开发AI生图/视频工具，提高电商效率。美图未来三年将向阿里采购至少5.6亿元云服务。双方还将探索其他创新项目。此次合作旨在结合双方优势，在AI驱动的电商领域共同发展。

点评#

今天的AI新闻，尤其是谷歌I/O大会的密集发布，清晰地勾勒出AI技术正在以前所未有的速度和广度向终端产品和用户体验渗透。从基础模型（Gemini 2.5系列、Imagen 4、Veo 3）的持续演进，到核心产品（搜索、安卓、车载、会议）的全面AI化，再到前沿探索（AI Agent、Android XR、Embodied AI），谷歌展现了一个All-in AI的战略蓝图，特别是AI Agent和XR平台的结合，预示着下一代计算平台的形态正在逐步清晰。苹果开放AI模型的传闻，虽晚于谷歌，但也显示出构建生态、 leveraging开发者力量的战略必要性。国内方面，美团的AI编程工具和美图/阿里在AI电商领域的合作，是技术赋能产业的具体实践；而具身智能团队的融资和落地，则代表了AI走向物理世界的长期趋势。我们正经历一个AI从云端走向端侧、从技术概念走向普惠工具的关键时期，未来的竞争将不仅仅是模型能力的比拼，更是AI如何与具体场景、硬件、用户习惯深度融合，产生实际价值的生态之争。