WEEKLY DIGEST · 2026-W26
本周精选
2026 年 6 月 22–28 日
本周概览
TOP 10 · BY OVERALL SCORE本周必读
按 AI 总评分排序
引用 OpenAI 的声明Quoting OpenAI
OpenAI 宣布开始 GPT-5.6 系列的有限预览,包含旗舰模型 Sol、主打日常平衡的 Terra 以及主打低成本快速的 Luna。其中 Terra 性能与 GPT-5.5 相当但成本降低了一半,而 Luna 则以最低成本提供强大能力。OpenAI 计划在未来几周内向公众全面开放这三个模型,以践行其广泛访问的承诺。
2000人试图黑掉我的AI助手后发生了什么What happened after 2,000 people tried to hack my AI assistant
Fernando Irarrázaval 在 hackmyclaw.com 上发起了一项安全挑战,测试能否通过发送电子邮件诱导其 OpenClaw 测试实例泄露机密信息。在经历了整整 6000 次尝试后,没有任何人成功提取出秘密。此次测试消耗了价值 500 美元的 token,甚至因接收大量测试邮件导致关联的 Google 账户被暂停。结果表明,经过精心防御的 AI 助手在面对大规模真实红队攻击时,依然能保持极高的数据安全性。
下一个重大突破:AI 在工作中学习The next big breakthrough will be AIs learning on the job
AI 实验室目前可能正在浪费最具价值的数据资源。文章指出,AI 发展的下一个重大范式转移将是从静态训练转向让模型“在工作中学习”。这种动态学习机制将极大提升模型的实用性和进化速度。
AI 与责任归属AI and Liability
Bruce Schneier 探讨了近期德国一项关于 Google AI 概览出错需承担法律责任的裁决。该裁决的核心观点是,AI 代理本质上是部署它们的个人或组织的代理,因此部署者必须为其产生的错误负责。这为未来 AI 应用的法律问责确立了重要先例。
The Coming LoopThe Coming Loop
The Coming Loop
专家感知量化:以接近 Q2 的大小实现接近 Q4 的质量?Expert-aware quantisation: near-Q4 quality at near-Q2 size?
针对混合专家模型在特定任务下不同专家重要性不同的问题,提出了一种基于性能分析的量化策略。该方法通过分析找出对特定任务至关重要的“热”专家,并对不活跃的“冷”专家进行极度激进的量化压缩。实验结果表明,这种策略能够在保持接近 Q4 量化精度的同时,实现接近 Q2 量化的体积缩减。这为在本地环境高效运行大型 MoE 模型提供了极具潜力的解决方案。
AI 推理显然是盈利的AI inference is obviously profitable
针对业界关于 AI 推理成本过高、只能靠资本补贴的悲观论调,作者提出了反驳。文章指出,提供 AI 推理服务实际上是具有盈利能力的,驳斥了 LLM 在资金、算力上不可持续的观点。这一结论打破了当前对 AI 商业模式的普遍误解。
Cargo CultureCargo Culture
Cargo Culture
simonw/browser-compat-dbsimonw/browser-compat-db
受 Mozilla 最新推出的 MDN MCP 服务启发,开发者将包含全面浏览器兼容性数据的 mdn/browser-compat-data 仓库转换为了 SQLite 数据库。该工具能更好地为大语言模型(LLM)提供结构化的 API 兼容性查询支持。通过将庞大的兼容性数据转化为单文件数据库,大幅提升了数据检索的灵活性和集成便利性。这种方案为构建可靠的 AI 编程助手提供了高质量的数据底座。
WorkOS:AI 代理需要身份验证,现在有了相关规范[Sponsor] WorkOS: Agents Need Auth. There’s Now a Spec for It.
AI 代理在执行需要新账户的任务时,常常卡在传统的注册表单上,目前缺乏代理代用户进行注册的统一标准。WorkOS 提出了 `auth.md` 规范,类似于 `robots.txt`,用于向代理声明应用支持的注册流程、权限作用域和凭据颁发方式。该规范基于现有的 OAuth 标准构建,已被 Cloudflare、Firecrawl 和 Resend 等公司采用。这为 AI 代理无缝接入各类应用提供了标准化的身份验证解决方案。