AI代理忙碌的一周
2026年1月21日至23日,coding agents和基础设施方面发布了几项重大公告。Anthropic在Excel中推出Claude,并发布了三篇关于多代理系统的文章,OpenAI详细介绍了Codex的内部架构及其PostgreSQL基础设施,Qwen开源了其文本转语音模型,Runway为Gen-4.5添加了图生视频功能。
Anthropic:Excel版Claude和Claude Code
Excel版Claude
1月23日 — Claude现已在Microsoft Excel Beta版中可用。此集成允许分析完整的Excel工作簿及其嵌套公式和选项卡之间的依赖关系。
功能:
- 理解整个工作簿(公式、多选项卡依赖关系)
- 带有单元格级引用的解释
- 更新假设同时保留公式
适用于Claude Pro、Max、Team和Enterprise订阅者。
Claude Code v2.1.19:任务系统 (Tasks)
1月23日 — 2.1.19版本引入了 Tasks,这是一个用于复杂多会话项目的新任务管理系统。
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇨🇳 我们在Claude Code中将Todos转变为Tasks。Tasks是一种新的原语,帮助Claude Code跟踪和完成更复杂的项目,并跨多个会话或子代理在这些项目上进行协作。 — Thariq (@trq212), Claude Code团队 Anthropic
Tasks功能:
| 方面 | 细节 |
|---|---|
| 存储 | ~/.claude/tasks (文件,允许在其上构建工具) |
| 协作 | CLAUDE_CODE_TASK_LIST_ID=name claude 以在会话间共享 |
| 依赖 | 存储在元数据中的具有依赖关系和阻塞的任务 |
| 广播 | 任务的更新会广播到同一任务列表上的所有会话 |
| 兼容性 | 适用于 claude -p 和 AgentSDK |
用途: 在一个复杂的项目(多文件重构、迁移、长功能)中,Claude可以将工作分解为任务,跟踪已完成的工作和剩余的工作。任务持久化在磁盘上 — 它们在上下文压缩、会话关闭和重启后仍然存在。多个会话或子代理可以实时在同一任务列表上协作。
实践中: Claude创建任务 (TaskCreate),列出任务 (TaskList),并更新其状态 (TaskUpdate: pending → in_progress → completed)。认证重构的示例:
#1 [completed] 将会话存储迁移到Redis
#2 [in_progress] 实现刷新令牌轮换
#3 [pending] 添加OAuth集成测试
#4 [pending] 更新API文档
任务存储在 ~/.claude/tasks/ 中,可以通过 CLAUDE_CODE_TASK_LIST_ID 在会话间共享。
v2.1.19其他新功能:
- 自定义命令参数的简写
$0,$1 - 面向所有人的VSCode会话分叉和回退
- 无权限的Skills无需批准即可运行
CLAUDE_CODE_ENABLE_TASKS=false以临时禁用
🔗 CHANGELOG Claude Code | 推文 @trq212
Claude Code v2.1.18:可自定义的键盘快捷键
以前的版本增加了按上下文配置键盘快捷键和创建和弦序列的功能。
命令:/keybindings
⚠️ 注意: 此功能目前处于预览阶段,并未对所有用户开放。
Petri 2.0:自动化对齐审计
1月22日 — Anthropic发布了Petri 2.0,这是其语言模型自动化行为审计工具的更新。
用途: Petri测试LLM是否可能表现出有问题的行为 — 操纵、欺骗、规避规则。该工具生成逼真的场景并观察模型的反应,以便在生产中发生之前检测到不需要的行为。
| 改进 | 描述 |
|---|---|
| 70个新场景 | 扩展的种子库以覆盖更多边缘情况 |
| 评估感知缓解 | 模型不得知道它正在被测试 — 否则它会调整其行为。Petri 2.0提高了场景的真实感以避免这种检测。 |
| 前沿比较 | 最近模型(Claude, GPT, Gemini)的评估结果 |
博客:何时使用(或不使用)多代理系统
1月23日 — Anthropic发布了一份关于多代理架构的实用指南。主要信息:不要默认使用多代理。
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇨🇳 我们看到团队花费数月时间构建精心设计的多代理架构,结果却发现单个代理上的改进提示实现了同等的结果。
文章指出了多代理真正带来价值的3种情况:
| 情况 | 问题 | 多代理解决方案 |
|---|---|---|
| 上下文污染 | 一个代理生成大量数据,只有摘要在之后有用 | 一个子代理检索2000个token的历史记录,只向主代理返回“订单已送达” |
| 并行化 | 有多个独立的搜索要做 | 在5个不同的源上并行启动5个代理,而不是按顺序处理它们 |
| 专业化 | 单个代理中的工具太多(20+)会降低其选择正确工具的能力 | 分离成专门的代理:一个用于CRM,一个用于营销,一个用于消息传递 |
要避免的陷阱: 按工作类型划分(一个代理计划,另一个实施,另一个测试)。每次交接都会丢失上下文并降低质量。最好让单个代理从头到尾处理一个功能。
实际成本: 完成相同任务比单个代理多消耗3-10倍的token。
系列中的其他文章:
Building agents with Skills (1月22日)
Anthropic建议构建skills,而不是按领域构建专门的代理:通才代理按需加载的文件集合(工作流、脚本、最佳实践)。
3个级别的渐进式披露:
| 级别 | 内容 | 大小 |
|---|---|---|
| 1 | 元数据(名称、描述) | ~50 tokens |
| 2 | 完整的SKILL.md文件 | ~500 tokens |
| 3 | 参考文档 | 2000+ tokens |
每个级别仅在必要时加载。结果:一个代理可以拥有数百个skills而不会使其上下文饱和。
Eight trends 2026 (1月21日)
Anthropic确定了2026年软件开发的8个趋势。
关键信息: 工程师正在从编写代码转向协调编写代码的代理。
重要细微差别: AI用于约60%的工作,但只有0-20%可以完全委托 — 人类监督仍然至关重要。
| 公司 | 结果 |
|---|---|
| Rakuten | vLLM代码库(1250万行)上的Claude Code,7小时自主工作 |
| TELUS | 快30%,节省50万小时 |
| Zapier | 89% AI采用率,800+内部代理 |
OpenAI:Codex架构和基础设施
Unrolling the Codex agent loop
1月23日 — OpenAI揭开了Codex CLI的幕后。关于其软件代理内部运作系列的第一篇文章。
我们学到了什么:
代理循环在理论上很简单:用户发送请求 → 模型生成响应或请求工具 → 代理执行工具 → 模型恢复并带有结果 → 直到最终响应。在实践中,微妙之处在于上下文管理。
Prompt缓存 — 性能的关键:
每一轮对话都会向prompt添加内容。如果没有优化,发送的token将呈二次方增长。Prompt缓存允许重用前几轮的计算。条件:新prompt必须是旧prompt的精确前缀。OpenAI详细介绍了破坏缓存的陷阱(更改MCP工具顺序,在对话中途修改配置)。
自动压缩:
当上下文超过阈值时,Codex调用 /responses/compact,它返回对话的压缩版本。模型通过不透明的 encrypted_content 保持潜在理解。
Zero Data Retention (ZDR):
对于不希望存储其数据的客户,encrypted_content 允许在回合之间保留模型的推理,而无需在服务器端存储数据。
系列的第一篇文章 — 接下来的文章将涵盖CLI架构、工具实现和沙盒。
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL:8亿ChatGPT用户
1月22日 — OpenAI详细介绍了PostgreSQL如何以每秒数百万次请求为8亿用户支持ChatGPT和API。
| 指标 | 值 |
|---|---|
| 用户 | 8亿 |
| 吞吐量 | 数百万QPS |
| 副本 | ~50 多区域只读副本 |
| p99 延迟 | 客户端两位数ms |
| 可用性 | Five-nines (99.999%) |
架构:
- 单一主Azure PostgreSQL灵活服务器
- PgBouncer用于连接池(连接延迟:50ms → 5ms)
- 写密集型工作负载迁移到Azure Cosmos DB
- 缓存锁定以防止缓存未命中风暴
- 测试中的级联复制以超过100个副本
过去12个月中唯一的SEV-0 PostgreSQL:在ChatGPT ImageGen病毒式发布期间(一周内新增1亿用户,写入流量x10)。
Qwen:Qwen3-TTS开源
1月22-23日 — Alibaba在Apache 2.0许可下开源了Qwen3-TTS。
| 特性 | 细节 |
|---|---|
| 许可 | Apache 2.0 |
| 声音克隆 | 是 |
| MLX-Audio 支持 | 可用 |
安装:
uv pip install -U mlx-audio --prerelease=allow
Runway:Gen-4.5 图生视频 (Image to Video)
1月21日 — Runway为Gen-4.5添加了图生视频功能。
| 功能 | 描述 |
|---|---|
| Image to Video | 将图像转换为电影视频 |
| 摄像机控制 | 精确的摄像机控制 |
| 连贯的叙事 | 随时间推移的连贯叙事 |
| 角色一致性 | 保持一致的角色 |
适用于所有Runway付费计划。临时促销:15%折扣。
这意味着什么
本周标志着coding agents工具的成熟。两大巨头(Anthropic和OpenAI)发布了关于其代理架构的详细技术文档 — 这一迹象表明市场正在从“演示”阶段转向“生产”阶段。
在基础设施方面,OpenAI的PostgreSQL文章表明,只要进行正确的优化,单一主架构就可以在数亿用户的规模上维持。
Claude进驻Excel开辟了一条新战线:直接集成到日常生产力工具中的AI。