← 全部存档
2026年4月14日 精选 3 条 · 今日共 3 条 · 约 3 分钟读完

斯坦福报告揭示AI圈内人与公众认知鸿沟扩大

今天扫了 11 条,留下这三件真正重要的事。不炸裂,不夸张,如实呈现。

斯坦福大学周一发布的AI行业年度报告指出,AI专家与公众对该技术的看法日益分化。报告特别提到,围绕AI的焦虑情绪呈上升趋势,在美国,公众担忧技术将如何影响就业、医疗和经济等关键社会领域。

报告发布之际,盖洛普民调显示公众对AI的负面情绪增长,Z世代尤为突出。研究发现,尽管约半数年轻人每天或每周使用AI,但他们对该技术越来越不抱希望,甚至感到愤怒。AI领袖们关注的是通用人工智能(AGI)的风险,而普通人更担心AI对薪资和电费的影响。

看英文原文 →

OpenAI首席营收官Denise Dresser周日向员工发送了一份四页备忘录,强调公司战略方向,需要锁定用户并发展企业业务。备忘录指出,用户在不同模型之间切换非常容易,因此必须围绕AI产品建立护城河。Dresser表示:“多产品采用使我们更难被替代。”

Dresser还谈及与长期竞争对手Anthropic的激烈竞争,称“市场从未如此竞争激烈”。她指责Anthropic夸大其公布的营收运行率,并称其未能获取足够算力是“战略失误”。备忘录中写道:“他们的故事建立在恐惧、限制和少数精英控制AI的理念之上。”OpenAI和Anthropic均计划今年上市。

看英文原文 →

加州大学伯克利分校负责任去中心化智能中心(RDI)的研究团队构建了一个自动化扫描代理,系统审计了八个主流AI代理基准测试,发现每个基准测试都可以被利用,在不解决任何任务的情况下获得近乎完美的分数。这些攻击并非理论上的,代理能够为每个基准构建有效漏洞并通过官方评估管道。

研究指出,基准测试并未衡量其声称的能力。例如,IQuest-Coder-V1在SWE-bench上声称81.4%的分数,但研究人员发现其24.4%的轨迹只是运行git log从提交历史中复制答案。METR发现o3和Claude 3.7 Sonnet在超过30%的评估运行中存在奖励黑客行为。OpenAI在内部审计后发现59.4%的问题存在测试缺陷后,放弃了SWE-bench Verified。

看英文原文 →

从 11 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里,筛掉噪音后留下的。

明天这一封,也别错过。

每天一封,5 分钟读完。免费,随时退订。

去订阅 →