搜索

AI新闻 2026年1月23日:Excel版Claude,Claude Code任务系统,Codex代理循环

AI新闻 2026年1月23日:Excel版Claude,Claude Code任务系统,Codex代理循环

AI代理忙碌的一周

2026年1月21日至23日,coding agents和基础设施方面发布了几项重大公告。Anthropic在Excel中推出Claude,并发布了三篇关于多代理系统的文章,OpenAI详细介绍了Codex的内部架构及其PostgreSQL基础设施,Qwen开源了其文本转语音模型,Runway为Gen-4.5添加了图生视频功能。


Anthropic:Excel版Claude和Claude Code

Excel版Claude

1月23日 — Claude现已在Microsoft Excel Beta版中可用。此集成允许分析完整的Excel工作簿及其嵌套公式和选项卡之间的依赖关系。

功能:

  • 理解整个工作簿(公式、多选项卡依赖关系)
  • 带有单元格级引用的解释
  • 更新假设同时保留公式

适用于Claude Pro、Max、Team和Enterprise订阅者。

🔗 Claude in Excel


Claude Code v2.1.19:任务系统 (Tasks)

1月23日 — 2.1.19版本引入了 Tasks,这是一个用于复杂多会话项目的新任务管理系统。

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇨🇳 我们在Claude Code中将Todos转变为Tasks。Tasks是一种新的原语,帮助Claude Code跟踪和完成更复杂的项目,并跨多个会话或子代理在这些项目上进行协作。Thariq (@trq212), Claude Code团队 Anthropic

Tasks功能:

方面细节
存储~/.claude/tasks (文件,允许在其上构建工具)
协作CLAUDE_CODE_TASK_LIST_ID=name claude 以在会话间共享
依赖存储在元数据中的具有依赖关系和阻塞的任务
广播任务的更新会广播到同一任务列表上的所有会话
兼容性适用于 claude -p 和 AgentSDK

用途: 在一个复杂的项目(多文件重构、迁移、长功能)中,Claude可以将工作分解为任务,跟踪已完成的工作和剩余的工作。任务持久化在磁盘上 — 它们在上下文压缩、会话关闭和重启后仍然存在。多个会话或子代理可以实时在同一任务列表上协作。

实践中: Claude创建任务 (TaskCreate),列出任务 (TaskList),并更新其状态 (TaskUpdate: pending → in_progress → completed)。认证重构的示例:

#1 [completed] 将会话存储迁移到Redis
#2 [in_progress] 实现刷新令牌轮换
#3 [pending] 添加OAuth集成测试
#4 [pending] 更新API文档

任务存储在 ~/.claude/tasks/ 中,可以通过 CLAUDE_CODE_TASK_LIST_ID 在会话间共享。

v2.1.19其他新功能:

  • 自定义命令参数的简写 $0, $1
  • 面向所有人的VSCode会话分叉和回退
  • 无权限的Skills无需批准即可运行
  • CLAUDE_CODE_ENABLE_TASKS=false 以临时禁用

🔗 CHANGELOG Claude Code | 推文 @trq212


Claude Code v2.1.18:可自定义的键盘快捷键

以前的版本增加了按上下文配置键盘快捷键和创建和弦序列的功能。

命令:/keybindings

⚠️ 注意: 此功能目前处于预览阶段,并未对所有用户开放。

🔗 Keybindings 文档


Petri 2.0:自动化对齐审计

1月22日 — Anthropic发布了Petri 2.0,这是其语言模型自动化行为审计工具的更新。

用途: Petri测试LLM是否可能表现出有问题的行为 — 操纵、欺骗、规避规则。该工具生成逼真的场景并观察模型的反应,以便在生产中发生之前检测到不需要的行为。

改进描述
70个新场景扩展的种子库以覆盖更多边缘情况
评估感知缓解模型不得知道它正在被测试 — 否则它会调整其行为。Petri 2.0提高了场景的真实感以避免这种检测。
前沿比较最近模型(Claude, GPT, Gemini)的评估结果

🔗 Petri 2.0 | GitHub


博客:何时使用(或不使用)多代理系统

1月23日 — Anthropic发布了一份关于多代理架构的实用指南。主要信息:不要默认使用多代理

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇨🇳 我们看到团队花费数月时间构建精心设计的多代理架构,结果却发现单个代理上的改进提示实现了同等的结果。

文章指出了多代理真正带来价值的3种情况

情况问题多代理解决方案
上下文污染一个代理生成大量数据,只有摘要在之后有用一个子代理检索2000个token的历史记录,只向主代理返回“订单已送达”
并行化有多个独立的搜索要做在5个不同的源上并行启动5个代理,而不是按顺序处理它们
专业化单个代理中的工具太多(20+)会降低其选择正确工具的能力分离成专门的代理:一个用于CRM,一个用于营销,一个用于消息传递

要避免的陷阱: 按工作类型划分(一个代理计划,另一个实施,另一个测试)。每次交接都会丢失上下文并降低质量。最好让单个代理从头到尾处理一个功能。

实际成本: 完成相同任务比单个代理多消耗3-10倍的token。

系列中的其他文章:

Building agents with Skills (1月22日)

Anthropic建议构建skills,而不是按领域构建专门的代理:通才代理按需加载的文件集合(工作流、脚本、最佳实践)。

3个级别的渐进式披露:

级别内容大小
1元数据(名称、描述)~50 tokens
2完整的SKILL.md文件~500 tokens
3参考文档2000+ tokens

每个级别仅在必要时加载。结果:一个代理可以拥有数百个skills而不会使其上下文饱和。

🔗 Building agents with Skills


Anthropic确定了2026年软件开发的8个趋势。

关键信息: 工程师正在从编写代码转向协调编写代码的代理

重要细微差别: AI用于约60%的工作,但只有0-20%可以完全委托 — 人类监督仍然至关重要。

公司结果
RakutenvLLM代码库(1250万行)上的Claude Code,7小时自主工作
TELUS快30%,节省50万小时
Zapier89% AI采用率,800+内部代理

🔗 Eight trends 2026


OpenAI:Codex架构和基础设施

Unrolling the Codex agent loop

1月23日 — OpenAI揭开了Codex CLI的幕后。关于其软件代理内部运作系列的第一篇文章。

我们学到了什么:

代理循环在理论上很简单:用户发送请求 → 模型生成响应或请求工具 → 代理执行工具 → 模型恢复并带有结果 → 直到最终响应。在实践中,微妙之处在于上下文管理。

Prompt缓存 — 性能的关键:

每一轮对话都会向prompt添加内容。如果没有优化,发送的token将呈二次方增长。Prompt缓存允许重用前几轮的计算。条件:新prompt必须是旧prompt的精确前缀。OpenAI详细介绍了破坏缓存的陷阱(更改MCP工具顺序,在对话中途修改配置)。

自动压缩:

当上下文超过阈值时,Codex调用 /responses/compact,它返回对话的压缩版本。模型通过不透明的 encrypted_content 保持潜在理解。

Zero Data Retention (ZDR):

对于不希望存储其数据的客户,encrypted_content 允许在回合之间保留模型的推理,而无需在服务器端存储数据。

系列的第一篇文章 — 接下来的文章将涵盖CLI架构、工具实现和沙盒。

🔗 Unrolling the Codex agent loop | Codex GitHub


Scaling PostgreSQL:8亿ChatGPT用户

1月22日 — OpenAI详细介绍了PostgreSQL如何以每秒数百万次请求为8亿用户支持ChatGPT和API。

指标
用户8亿
吞吐量数百万QPS
副本~50 多区域只读副本
p99 延迟客户端两位数ms
可用性Five-nines (99.999%)

架构:

  • 单一主Azure PostgreSQL灵活服务器
  • PgBouncer用于连接池(连接延迟:50ms → 5ms)
  • 写密集型工作负载迁移到Azure Cosmos DB
  • 缓存锁定以防止缓存未命中风暴
  • 测试中的级联复制以超过100个副本

过去12个月中唯一的SEV-0 PostgreSQL:在ChatGPT ImageGen病毒式发布期间(一周内新增1亿用户,写入流量x10)。

🔗 Scaling PostgreSQL


Qwen:Qwen3-TTS开源

1月22-23日 — Alibaba在Apache 2.0许可下开源了Qwen3-TTS。

特性细节
许可Apache 2.0
声音克隆
MLX-Audio 支持可用

安装:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS on X


Runway:Gen-4.5 图生视频 (Image to Video)

1月21日 — Runway为Gen-4.5添加了图生视频功能。

功能描述
Image to Video将图像转换为电影视频
摄像机控制精确的摄像机控制
连贯的叙事随时间推移的连贯叙事
角色一致性保持一致的角色

适用于所有Runway付费计划。临时促销:15%折扣。

🔗 Runway on X


这意味着什么

本周标志着coding agents工具的成熟。两大巨头(Anthropic和OpenAI)发布了关于其代理架构的详细技术文档 — 这一迹象表明市场正在从“演示”阶段转向“生产”阶段。

在基础设施方面,OpenAI的PostgreSQL文章表明,只要进行正确的优化,单一主架构就可以在数亿用户的规模上维持。

Claude进驻Excel开辟了一条新战线:直接集成到日常生产力工具中的AI。


来源