最新科技动态
1. Hugging Face TRL库新增视觉语言模型(VLM)支持
Hugging Face的TRL(Transformer Reinforcement Learning)库近期获得了重大更新,全面增强了对视觉语言模型(VLM)的支持。此次更新的核心亮点包括原生监督微调(supervised fine-tuning)功能以及多模态能力的集成。这意味着开发者和研究人员现在可以更高效地利用TRL库来训练和优化结合视觉与语言处理能力的AI模型,有望推动VLM在理解和生成多模态内容方面的进一步发展和应用。
2. 全新图像编辑模型“nano-banana”亮相,表现超越FLUX Kontext,或来自谷歌
AI领域近期出现一款名为“nano-banana”的强大图像编辑模型,其在lmarena平台上的表现引起广泛关注。据用户反馈,该模型在角色和场景的还原度以及图像融合效果方面,展现出超越现有先进模型FLUX Kontext的卓越能力。有用户经过验证后,推测“nano-banana”可能源自谷歌。目前,用户可以通过提供的链接上传图像进行体验和测试,亲身验证其强大的编辑功能。
3. Gary Marcus重申LLM本质为自动补全
知名AI批评家Gary Marcus在其社交媒体上再次强调了对大型语言模型(LLM)的根本性观点,即LLM的本质是自动补全工具。他指出,尽管LLM在生成文本方面表现出惊人的能力,但其核心机制仍在于基于大量数据预测并续写序列。这一观点提醒人们关注LLM工作原理的局限性,而非将其误解为具备真正意义上的理解或通用智能。