2025.06.06全球AI新闻速递

概要#

本期AI整点新闻速递聚焦于Qwen模型的新进展、Luma Labs视频修改工具的革新性发布、以及Pollo AI平台在集成前沿图像视频大模型方面的亮点。同时，我们也关注到亚马逊在人形机器人领域的最新动向、自动驾驶卡车的部署计划，以及Bland AI在TTS技术上的突破性创新。

新闻列表#

基于Qwen模型构建的多模态推理模型表现出色，Qwen2.5-Omni模型及相关子模型发布

围绕Qwen2.5-Omni模型，开源音频推理模型Ke-Omni-R-3B和视频推理模型Omni-R1表现突出。Ke-Omni-R-3B基于Qwen 3B，在音频推理基准测试中达到了平均最佳水平。Omni-R1是基于Qwen 7B的视频推理模型，具有像素级定位能力，表现极具竞争力。Qwen团队近期动态显示其正在频繁更新并发布新成果。

Pollo AI率先上线Veo3模型API，并整合多款前沿图像视频大模型

Pollo AI平台宣布率先上线Veo 3模型及API，成为首个提供该服务的第三方平台。该平台整合了全球最前沿的AI图像和视频大模型，包括Flux Kontext和GPT-4o-image等，使用户能够一站式体验各项功能。平台还新增了用户友好的设计，如Veo3的英文提示词翻译开关和FLUX Kontext的图片比例自定义功能，旨在简化创作流程。

Luma Labs推出“Modify Video”工具，革新视频任意对象修改能力

Luma Labs发布“Modify Video”工具，旨在颠覆视频制作行业。该工具允许用户在不破坏原始表演、动作和角色的前提下，对视频中的场景、风格、材质乃至角色本体进行全面重构。它提供了三种转换预设模式，并支持局部元素修改（Isolated Edits），例如更改服装颜色、替换面部特征或添加物体，且无需绿幕或逐帧追踪，实现自然无缝的修改效果。

Bland AI发布全新TTS引擎：利用大语言模型直接生成语音

Bland AI推出革命性的全新文本转语音（TTS）引擎，其核心技术是利用大语言模型（LLM）直接生成语音“音频Token”，而非传统的逐层转换。该引擎仅需简短音频即可克隆任意人声，并能混搭语音风格。它能通过“上下文学习”理解并生成不同语气的情绪，甚至可以生成音效，使得语音合成更加自然、富有表现力。

…（其余新闻项以此类推，格式一致）