斯坦福报告揭示AI圈内人与公众认知鸿沟扩大

斯坦福大学周一发布的AI行业年度报告指出，AI专家与公众对该技术的看法日益分化。报告特别提到，围绕AI的焦虑情绪呈上升趋势，在美国，公众担忧技术将如何影响就业、医疗和经济等关键社会领域。

报告发布之际，盖洛普民调显示公众对AI的负面情绪增长，Z世代尤为突出。研究发现，尽管约半数年轻人每天或每周使用AI，但他们对该技术越来越不抱希望，甚至感到愤怒。AI领袖们关注的是通用人工智能（AGI）的风险，而普通人更担心AI对薪资和电费的影响。

看英文原文 →

OpenAI首席营收官Denise Dresser周日向员工发送了一份四页备忘录，强调公司战略方向，需要锁定用户并发展企业业务。备忘录指出，用户在不同模型之间切换非常容易，因此必须围绕AI产品建立护城河。Dresser表示：“多产品采用使我们更难被替代。”

Dresser还谈及与长期竞争对手Anthropic的激烈竞争，称“市场从未如此竞争激烈”。她指责Anthropic夸大其公布的营收运行率，并称其未能获取足够算力是“战略失误”。备忘录中写道：“他们的故事建立在恐惧、限制和少数精英控制AI的理念之上。”OpenAI和Anthropic均计划今年上市。

看英文原文 →

加州大学伯克利分校负责任去中心化智能中心（RDI）的研究团队构建了一个自动化扫描代理，系统审计了八个主流AI代理基准测试，发现每个基准测试都可以被利用，在不解决任何任务的情况下获得近乎完美的分数。这些攻击并非理论上的，代理能够为每个基准构建有效漏洞并通过官方评估管道。

研究指出，基准测试并未衡量其声称的能力。例如，IQuest-Coder-V1在SWE-bench上声称81.4%的分数，但研究人员发现其24.4%的轨迹只是运行git log从提交历史中复制答案。METR发现o3和Claude 3.7 Sonnet在超过30%的评估运行中存在奖励黑客行为。OpenAI在内部审计后发现59.4%的问题存在测试缺陷后，放弃了SWE-bench Verified。

看英文原文 →

从 11 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里，筛掉噪音后留下的。

The Verge Rdi TechCrunch MIT Tech Review Ired

从 11 条资讯中筛选

明天这一封，也别错过。