← 全部存档
2026年3月18日 精选 3 条 · 今日共 3 条 · 约 3 分钟读完

五角大楼计划让AI公司在机密数据上训练模型

今天扫了 10 条,留下这三件真正重要的事。不炸裂,不夸张,如实呈现。

据MIT Tech Review获悉,美国五角大楼正讨论为生成式AI公司搭建安全环境,使其能在机密数据上训练军事专用版本的模型。目前,Anthropic的Claude等模型已在机密环境中用于回答问题,例如分析伊朗境内的目标。但允许模型直接训练和学习机密数据将是新的进展,会带来独特的安全风险。

训练将在经认证的安全数据中心进行,模型副本与机密数据配对。国防部仍是数据所有者,但AI公司人员若具备相应安全许可,在极少数情况下可能访问数据。五角大楼计划先评估模型在非机密数据上的表现,再决定是否推进。

看英文原文 →

Mistral发布了Leanstral,首个专为Lean 4设计的开源代码代理。Lean 4是一个证明助手,可表达复杂数学对象和软件规范。Leanstral采用高度稀疏架构,拥有6B活跃参数,针对证明工程任务优化,利用并行推理和Lean作为完美验证器,在成本效率上优于现有闭源竞品。

在FLTEval基准测试中,Leanstral-120B-A6B以单次通过超越GLM5-744B-A40B和Kimi-K2.5-1T-32B等更大模型。即使与Qwen3.5-397B-A17B相比,Leanstral在pass@2时得分26.3,高于对手4次通过的25.4,并线性扩展至29.3。Leanstral权重以Apache 2.0许可发布,可通过Mistral vibe和免费API使用。

看英文原文 →

OpenSeeker是首个全开源搜索代理(模型和数据均开源),通过两项技术创新实现前沿性能:事实可扩展可控QA合成,通过拓扑扩展和实体混淆逆向工程网页图,生成复杂多跳推理任务;去噪轨迹合成,采用回顾性总结机制提升教师LLM生成高质量动作。

仅用11.7k合成样本进行单次SFT训练,OpenSeeker在BrowseComp、BrowseComp-ZH、xbench-DeepSearch和WideSearch等多个基准上达到最先进水平。在BrowseComp上,OpenSeeker得分29.5%,远超第二名全开源代理Deep Dive的15.3%;在BrowseComp-ZH上甚至超越通义Deep Research(48.4% vs 46.7%)。完整训练数据集和模型权重已开源。

看英文原文 →

从 10 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里,筛掉噪音后留下的。

明天这一封,也别错过。

每天一封,5 分钟读完。免费,随时退订。

去订阅 →