🤖 AI / ML

Live blog: Code w/ Claude 2026Live blog: Code w/ Claude 2026

simonwillison.net·2026-05-06

作者正在参加 Anthropic 的 Code w/ Claude 活动，并实时记录上午的主题演讲内容。重点包括 Claude Code 在代码生成、调试和自动化方面的最新进展。Anthropic 展示了其在提升模型推理能力上的突破，特别是在编程任务中的表现接近人类水平。整体氛围强调 AI 编程助手正从辅助工具向自主开发伙伴演进。

阅读原文

Simon Willison

我正身处2026年Anthropic举办的“Code w/ Claude”活动现场，今天将全程直播主题演讲并记录一些笔记。

08:56 我已就座于主会场。主题演讲将于上午9点开始。

09:03 开场动画很可爱，展示了一个橙色的小Claude像素艺术角色。

09:05 舞台上的人是Anthropic的产品负责人Ami Vora——她今年早些时候接替了Mike Krieger的职位（他现在担任Anthropic Labs的联合主管）。

09:07 Ami正在分享关于开发者效率的趣闻，比如Stripe的Scott MacVicar团队和Binti的Felicia Curcuru团队。

09:07 （这些内容有点过于励志了，我个人更期待看到新的模型、产品或功能发布！）

09:09 现在讲的是Mythos如何读取OpenBSD源码树并发现一个存在27年的漏洞，以此说明模型的进步。

09:09 Anthropic平台上的API调用量同比增长了17倍。

09:09 今天没有发布新模型。“今天的重点是：我们如何让产品更好地为您服务。”

09:11 介绍Claude托管代理的更新——多智能体协同、Claude Code例行程序。“大多数人将通过您在Claude平台上构建的应用来体验AI。”

09:12 “分享一个令人兴奋的消息”——即日起，Claude Code和API的开发者速率限制将提高。为Pro、Max和企业客户提供Claude Code五小时使用时长上限翻倍。“我们正在与SpaceX合作，利用其Colossus数据中心的全量算力。”

09:14 接下来登场的是Dianne Na Penn——研究产品负责人。

09:16 她谈到工具使用、长上下文、计算机操作、自适应思维、视觉设计和智能体循环的重要性。“模型智能——核心基础——已经足够强大，可以支撑所有这些能力。”

09:17 现在介绍Claude Design。“Opus 4.7在视觉设计方面表现出色。”

09:18 更高的判断力和代码品味。“结合高质量记忆后，上下文窗口感觉无限”。多智能体协作可帮助实现单个实例无法完成的大目标。

09:19 去年此时模型只能运行几分钟，而现在许多人已能持续运行数小时。

09:20 （截至目前，本场唯一新闻是SpaceX Colossus的合作协议，以及API流量较去年同期增长17倍。）

09:21 经典建议：面向下一代模型进行设计。假设某些功能目前尚不支持，但未来随模型升级即可启用。

09:22 Dianne表示，最充分挖掘Claude潜力的团队专注于自动化评估、简单脚手架以及对模型富有想象力的创新用法。

09:23 接下来是Katelyn Lesse和Angela Kiang。

09:24 这部分围绕Claude平台和“获取正确结果”展开。

09:25 “顾问策略”——Opus可为小型模型提供按需指导。他们通过让Sonnet调用Opus作为顾问，获得了更好的基准测试结果——既提升了性能又降低了成本。一家名为eve的客户实现了“前沿模型质量，成本仅为五分之一”。

09:26 速度和规模难以兼得。Claude托管代理旨在帮助团队“十倍速”交付成果，它内置了许多最佳实践，例如内存管理等功能。

09:28 今日更新：Claude 托管代理新增三大功能。多智能体协同，可创建代理舰队以解决复杂任务。成果设定（Outcomes）明确成功标准，让 Claude 能迭代推进直至完成——听起来像 Ralph 循环。还有“梦境”（Dreaming）功能：Claude 可回顾过往会话，找出遗漏之处并实现自我优化。

09:28 现在来看一个示例：为月球着陆无人机开发一款假设性产品。

09:30 为实现此目标需多个代理协作——指挥官（Commander）、探测器（Detector）与导航员（Navigator）。我在演示中有点晕头转向，希望会后他们能发布详细记录。

09:32 “梦境”功能看起来非常有趣。你可将任务设为夜间运行，它会分析之前的会话并生成新记忆——本例中就生成了一个 descent-playbook.md 文件。

09:33 多智能体协同与成果设定已开放公开测试版，而“梦境”仍处于研究预览阶段。我不太清楚这两类功能的区别何在。

09:34 接下来介绍：Cat Wu，Claude Code 产品负责人。

09:34 “感谢你们在 Sonnet 3.7 仍是顶级模型时，就信任 Claude Code 处理你们的线上数据库。”（很暖心。）

09:36 这是关于“梦境”的官方文档。看来需要申请权限才能试用（因此称为“研究预览”）。

09:37 Claude Code 始于 CLI——所有最新定制功能，完全掌控。随后增加了 IDE 版本——同样是代理，但在 UI 界面中更便于追踪其代码变更。最新形态是桌面端 Claude Code——面向希望获得全屏 GUI、全屏预览及丰富输出的用户。

09:37 IDE 与桌面应用均基于同一 Claude Agent SDK，外部开发者也可使用。

09:38 “我们听到你们希望减少代码审查耗时”——于是推出了 Code Review 功能，现已被 Anthropic 全员采用。

09:38 Remote Agents 让你能用手机控制笔记本电脑。我直接在手机上用 Claude Code for Web，连笔记本都不用开。

09:39 我之前没见过“CI 自动修复”（CI auto-fix），它能对 PR 中的文件自动修复。唯一找到的相关资料就是这篇发布说明。

09:41 现在来看看 Claude Code 的客户案例——Shopify、Mercado Libre（拥有 2.3 万名工程师！）——他们的目标是“今年第三季度实现 90% 自主编程”。

09:42 Cat 提到一个我也在关注的现象：高管和经理们重新开始写代码，因为如今只需少量时间就能做出有效贡献。

09:43 接下来介绍：Boris Cherny，Claude Code 创始人。“这些进展对我而言仍充满魔力，而我每天都在参与 Claude Code 的开发。”

09:44 Boris 正在用 Claude 桌面端进行演示。“Claude 正在为 ACME 的仪表盘添加退款功能”。支持幂等性防止重复退款、多币种处理，并为合规团队提供审计日志。右侧面板显示的是正在开发的网页 UI，你能看到 Claude 直接使用它并发现了一个边界情况 bug。

09:45 ...但 Boris 同时在 Claude 桌面端打开了多个会话窗口，并能随时切换，查看哪些需要你介入。“我们认为未来大部分代码将以异步方式编写。”

09:46 Boris 表示他目前很多代码由 Routines（例行程序）生成。“Routines 是高阶提示词”。

09:46 “通过 Routines，开发者可设置异步自动化任务，醒来时就能看到可直接合并的 PR。”

09:48 PR自动修复的思路是“提交PR的人永远不会看到红色的X”。Claude正在自主提示Claude Code。

09:49 主题演讲结束。今天的主题是——对于名为“Code w/ Claude”的活动来说毫不意外——学习如何最有效地使用现有模型。

需要完整排版与评论请前往来源站点阅读。