Skip to content

2025.06.06全球AI新闻速递

· 3 min

概要#

本期AI整点新闻速递聚焦于Qwen模型的新进展、Luma Labs视频修改工具的革新性发布、以及Pollo AI平台在集成前沿图像视频大模型方面的亮点。同时,我们也关注到亚马逊在人形机器人领域的最新动向、自动驾驶卡车的部署计划,以及Bland AI在TTS技术上的突破性创新。


新闻列表#

  1. 基于Qwen模型构建的多模态推理模型表现出色,Qwen2.5-Omni模型及相关子模型发布

围绕Qwen2.5-Omni模型,开源音频推理模型Ke-Omni-R-3B和视频推理模型Omni-R1表现突出。Ke-Omni-R-3B基于Qwen 3B,在音频推理基准测试中达到了平均最佳水平。Omni-R1是基于Qwen 7B的视频推理模型,具有像素级定位能力,表现极具竞争力。Qwen团队近期动态显示其正在频繁更新并发布新成果。

  1. Pollo AI率先上线Veo3模型API,并整合多款前沿图像视频大模型

Pollo AI平台宣布率先上线Veo 3模型及API,成为首个提供该服务的第三方平台。该平台整合了全球最前沿的AI图像和视频大模型,包括Flux Kontext和GPT-4o-image等,使用户能够一站式体验各项功能。平台还新增了用户友好的设计,如Veo3的英文提示词翻译开关和FLUX Kontext的图片比例自定义功能,旨在简化创作流程。

  1. Luma Labs推出“Modify Video”工具,革新视频任意对象修改能力

Luma Labs发布“Modify Video”工具,旨在颠覆视频制作行业。该工具允许用户在不破坏原始表演、动作和角色的前提下,对视频中的场景、风格、材质乃至角色本体进行全面重构。它提供了三种转换预设模式,并支持局部元素修改(Isolated Edits),例如更改服装颜色、替换面部特征或添加物体,且无需绿幕或逐帧追踪,实现自然无缝的修改效果。

  1. Bland AI发布全新TTS引擎:利用大语言模型直接生成语音

Bland AI推出革命性的全新文本转语音(TTS)引擎,其核心技术是利用大语言模型(LLM)直接生成语音“音频Token”,而非传统的逐层转换。该引擎仅需简短音频即可克隆任意人声,并能混搭语音风格。它能通过“上下文学习”理解并生成不同语气的情绪,甚至可以生成音效,使得语音合成更加自然、富有表现力。

…(其余新闻项以此类推,格式一致)