AI新闻 2026年1月23日：Excel版Claude，Claude Code任务系统，Codex代理循环

AI代理忙碌的一周

2026年1月21日至23日，coding agents和基础设施方面发布了几项重大公告。Anthropic在Excel中推出Claude，并发布了三篇关于多代理系统的文章，OpenAI详细介绍了Codex的内部架构及其PostgreSQL基础设施，Qwen开源了其文本转语音模型，Runway为Gen-4.5添加了图生视频功能。

Anthropic：Excel版Claude和Claude Code

Excel版Claude

1月23日 — Claude现已在Microsoft Excel Beta版中可用。此集成允许分析完整的Excel工作簿及其嵌套公式和选项卡之间的依赖关系。

功能：

理解整个工作簿（公式、多选项卡依赖关系）
带有单元格级引用的解释
更新假设同时保留公式

适用于Claude Pro、Max、Team和Enterprise订阅者。

🔗 Claude in Excel

Claude Code v2.1.19：任务系统 (Tasks)

1月23日 — 2.1.19版本引入了 Tasks，这是一个用于复杂多会话项目的新任务管理系统。

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇨🇳 我们在Claude Code中将Todos转变为Tasks。Tasks是一种新的原语，帮助Claude Code跟踪和完成更复杂的项目，并跨多个会话或子代理在这些项目上进行协作。 — Thariq (@trq212), Claude Code团队 Anthropic

Tasks功能：

方面	细节
存储	`~/.claude/tasks` (文件，允许在其上构建工具)
协作	`CLAUDE_CODE_TASK_LIST_ID=name claude` 以在会话间共享
依赖	存储在元数据中的具有依赖关系和阻塞的任务
广播	任务的更新会广播到同一任务列表上的所有会话
兼容性	适用于 `claude -p` 和 AgentSDK

用途： 在一个复杂的项目（多文件重构、迁移、长功能）中，Claude可以将工作分解为任务，跟踪已完成的工作和剩余的工作。任务持久化在磁盘上 — 它们在上下文压缩、会话关闭和重启后仍然存在。多个会话或子代理可以实时在同一任务列表上协作。

实践中： Claude创建任务 (TaskCreate)，列出任务 (TaskList)，并更新其状态 (TaskUpdate: pending → in_progress → completed)。认证重构的示例：

#1 [completed] 将会话存储迁移到Redis
#2 [in_progress] 实现刷新令牌轮换
#3 [pending] 添加OAuth集成测试
#4 [pending] 更新API文档

任务存储在 ~/.claude/tasks/ 中，可以通过 CLAUDE_CODE_TASK_LIST_ID 在会话间共享。

v2.1.19其他新功能：

自定义命令参数的简写 $0, $1
面向所有人的VSCode会话分叉和回退
无权限的Skills无需批准即可运行
CLAUDE_CODE_ENABLE_TASKS=false 以临时禁用

🔗 CHANGELOG Claude Code | 推文 @trq212

Claude Code v2.1.18：可自定义的键盘快捷键

以前的版本增加了按上下文配置键盘快捷键和创建和弦序列的功能。

命令：/keybindings

⚠️ 注意： 此功能目前处于预览阶段，并未对所有用户开放。

🔗 Keybindings 文档

Petri 2.0：自动化对齐审计

1月22日 — Anthropic发布了Petri 2.0，这是其语言模型自动化行为审计工具的更新。

用途： Petri测试LLM是否可能表现出有问题的行为 — 操纵、欺骗、规避规则。该工具生成逼真的场景并观察模型的反应，以便在生产中发生之前检测到不需要的行为。

改进	描述
70个新场景	扩展的种子库以覆盖更多边缘情况
评估感知缓解	模型不得知道它正在被测试 — 否则它会调整其行为。Petri 2.0提高了场景的真实感以避免这种检测。
前沿比较	最近模型（Claude, GPT, Gemini）的评估结果

🔗 Petri 2.0 | GitHub

博客：何时使用（或不使用）多代理系统

1月23日 — Anthropic发布了一份关于多代理架构的实用指南。主要信息：不要默认使用多代理。

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇨🇳 我们看到团队花费数月时间构建精心设计的多代理架构，结果却发现单个代理上的改进提示实现了同等的结果。

文章指出了多代理真正带来价值的3种情况：

情况	问题	多代理解决方案
上下文污染	一个代理生成大量数据，只有摘要在之后有用	一个子代理检索2000个token的历史记录，只向主代理返回“订单已送达”
并行化	有多个独立的搜索要做	在5个不同的源上并行启动5个代理，而不是按顺序处理它们
专业化	单个代理中的工具太多（20+）会降低其选择正确工具的能力	分离成专门的代理：一个用于CRM，一个用于营销，一个用于消息传递

要避免的陷阱： 按工作类型划分（一个代理计划，另一个实施，另一个测试）。每次交接都会丢失上下文并降低质量。最好让单个代理从头到尾处理一个功能。

实际成本： 完成相同任务比单个代理多消耗3-10倍的token。

系列中的其他文章：

Building agents with Skills (1月22日)

Anthropic建议构建skills，而不是按领域构建专门的代理：通才代理按需加载的文件集合（工作流、脚本、最佳实践）。

3个级别的渐进式披露：

级别	内容	大小
1	元数据（名称、描述）	~50 tokens
2	完整的SKILL.md文件	~500 tokens
3	参考文档	2000+ tokens

每个级别仅在必要时加载。结果：一个代理可以拥有数百个skills而不会使其上下文饱和。

🔗 Building agents with Skills

Eight trends 2026 (1月21日)

Anthropic确定了2026年软件开发的8个趋势。

关键信息： 工程师正在从编写代码转向协调编写代码的代理。

重要细微差别： AI用于约60%的工作，但只有0-20%可以完全委托 — 人类监督仍然至关重要。

公司	结果
Rakuten	vLLM代码库（1250万行）上的Claude Code，7小时自主工作
TELUS	快30%，节省50万小时
Zapier	89% AI采用率，800+内部代理

🔗 Eight trends 2026

OpenAI：Codex架构和基础设施

Unrolling the Codex agent loop

1月23日 — OpenAI揭开了Codex CLI的幕后。关于其软件代理内部运作系列的第一篇文章。

我们学到了什么：

代理循环在理论上很简单：用户发送请求 → 模型生成响应或请求工具 → 代理执行工具 → 模型恢复并带有结果 → 直到最终响应。在实践中，微妙之处在于上下文管理。

Prompt缓存 — 性能的关键：

每一轮对话都会向prompt添加内容。如果没有优化，发送的token将呈二次方增长。Prompt缓存允许重用前几轮的计算。条件：新prompt必须是旧prompt的精确前缀。OpenAI详细介绍了破坏缓存的陷阱（更改MCP工具顺序，在对话中途修改配置）。

自动压缩：

当上下文超过阈值时，Codex调用 /responses/compact，它返回对话的压缩版本。模型通过不透明的 encrypted_content 保持潜在理解。

Zero Data Retention (ZDR):

对于不希望存储其数据的客户，encrypted_content 允许在回合之间保留模型的推理，而无需在服务器端存储数据。

系列的第一篇文章 — 接下来的文章将涵盖CLI架构、工具实现和沙盒。

🔗 Unrolling the Codex agent loop | Codex GitHub

Scaling PostgreSQL：8亿ChatGPT用户

1月22日 — OpenAI详细介绍了PostgreSQL如何以每秒数百万次请求为8亿用户支持ChatGPT和API。

指标	值
用户	8亿
吞吐量	数百万QPS
副本	~50 多区域只读副本
p99 延迟	客户端两位数ms
可用性	Five-nines (99.999%)

架构：

单一主Azure PostgreSQL灵活服务器
PgBouncer用于连接池（连接延迟：50ms → 5ms）
写密集型工作负载迁移到Azure Cosmos DB
缓存锁定以防止缓存未命中风暴
测试中的级联复制以超过100个副本

过去12个月中唯一的SEV-0 PostgreSQL：在ChatGPT ImageGen病毒式发布期间（一周内新增1亿用户，写入流量x10）。

🔗 Scaling PostgreSQL

Qwen：Qwen3-TTS开源

1月22-23日 — Alibaba在Apache 2.0许可下开源了Qwen3-TTS。

特性	细节
许可	Apache 2.0
声音克隆	是
MLX-Audio 支持	可用

安装：

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS on X

Runway：Gen-4.5 图生视频 (Image to Video)

1月21日 — Runway为Gen-4.5添加了图生视频功能。

功能	描述
Image to Video	将图像转换为电影视频
摄像机控制	精确的摄像机控制
连贯的叙事	随时间推移的连贯叙事
角色一致性	保持一致的角色

适用于所有Runway付费计划。临时促销：15%折扣。

🔗 Runway on X

这意味着什么

本周标志着coding agents工具的成熟。两大巨头（Anthropic和OpenAI）发布了关于其代理架构的详细技术文档 — 这一迹象表明市场正在从“演示”阶段转向“生产”阶段。

在基础设施方面，OpenAI的PostgreSQL文章表明，只要进行正确的优化，单一主架构就可以在数亿用户的规模上维持。

Claude进驻Excel开辟了一条新战线：直接集成到日常生产力工具中的AI。