Lovable竞赛数据揭示AI模型表现#

Lovable竞赛数据揭示AI模型表现-归藏(guizang.ai)#

Lovable平台近期举行的竞赛取得了显著成功，在项目创建和提示词使用量上均表现活跃。数据显示，Anthropic展示了最强的活跃度，在提示词使用、项目创建和提交数量上均处于领先地位。OpenAI则以每次编辑仅需47秒的最快速度脱颖而出，其效率几乎是Anthropic的两倍。相比之下，Gemini的使用量偏低，各项指标均明显低于其他两家。此外，Lovable还提供了一个实用功能：用户可以在输入框上传图片，并指定其在生成网页中的位置，为网页内容创作提供了更多灵活性。

大语言模型“幻觉”现象持续受关注，专家强调其对AGI发展的挑战-Gary Marcus#

大语言模型“幻觉”现象持续受关注，专家强调其对AGI发展的挑战-Gary Marcus #

知名专家Gary Marcus引用Terence Tao的观点，再次强调大语言模型（LLMs）普遍存在的“幻觉”问题。LLMs生成的内容看似正确，但经过仔细审查往往发现其深度错误甚至荒谬。Marcus指出，这种现象在许多领域普遍存在，但人们似乎仍在不断发现其新的表现形式，非专业人士甚至难以察觉。他表示，未能解决这一根本性问题，AGI（通用人工智能）便无法实现，且目前的规模化发展也未能有效解决这一挑战。

在AI辅助时代，软件开发更应追求“智能化工程”与精益工艺-宝玉#

在AI辅助时代，软件开发更应追求“智能化工程”与精益工艺-宝玉 #

Nathan Sobo发文呼吁，在AI“Vibe Coding”时代，软件工程师应将重心放在软件工艺上，追求更高品质的软件，而非仅仅关注代码数量。他提出了“智能化工程”（Agentic Engineering）的概念，强调将人类的匠人精神与AI工具相结合，共同构建可靠、设计精良、易于维护且用户体验卓越的系统。Sobo认为，尽管AI可以极大降低学习新技术的门槛并加速迭代，但工程师仍需承担起用户体验的责任，主动提升系统可靠性与灵活性。Zed编辑器团队计划每两周邀请专家探讨如何实现这种高质量的AI辅助开发。

马斯克的Grok AI评估其言论“草率不慎”，引发热议-Gary Marcus#

马斯克的Grok AI评估其言论“草率不慎”，引发热议-Gary Marcus #

在一系列社交媒体讨论中，Gary Marcus提问马斯克旗下AI模型Grok，关于马斯克未经证实即发布明尼苏达州刺客政治立场声明的看法。Grok回应称，马斯克的行为表现出“草率和不谨慎”，并“有散布未经证实言论的模式”。此事件背景是马斯克在没有证据的情况下声称刺客是民主党人，而实际情况显示刺客投票支持特朗普，并袭击了多名民主党人。Grok的评价在社交媒体上引发了广泛关注，表明即使是AI系统也开始对其所有者的公共言论进行评估。