OpenAI 推出 GPT-5.5，Anthropic 向 Managed Agents 开放记忆，Kimi K2.6 Agent Swarm

2026年4月23日标志着信息密集的一天：OpenAI 推出 GPT-5.5，在 ARC-AGI-2 上达到 85%，API 价格为输入 $5/M tokens，而 Anthropic 则为其 Managed Agents 在测试版中开放持久记忆，并发布了关于 Claude Code 的事后分析。与此同时，GitHub Copilot 在三天内发布了七次更新，Kimi K2.6 部署了一个由 300 个子代理组成的 swarm（swarm），SpaceX 还与 Cursor 签署了编程合作伙伴关系。

GPT-5.5：OpenAI 的 frontier 模型

4月23日 — OpenAI 推出 GPT-5.5，这是其迄今为止最强大的模型，专为真实工作和代理而设计。它显著改进了代理式编码、计算机使用（computer use）、知识工作和科学研究，同时保持了 GPT-5.4 的延迟水平。

可用性与定价

GPT-5.5 现已立即向 ChatGPT Plus、Pro、Business 和 Enterprise 订阅用户开放，也可在 Codex 中使用。API 访问“很快”就会到来。

方案	API 访问	输入	输出
GPT-5.5 标准版	即将推出	$5 / M tokens	$30 / M tokens
GPT-5.5 Pro	即将推出	$30 / M tokens	$180 / M tokens

Codex 中的上下文窗口达到 400K tokens。还提供 Fast 模式——速度快 1.5 倍，成本高 2.5 倍。

基准测试

评测	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE（内部）	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench（生物信息学）	80.5%	74.0%	—	—

GPT-5.5 在大多数基准测试中居首，只有一个显著例外：SWE-Bench Pro，Claude Opus 4.7 仍保持优势（64.3% 对 58.6%）。

基础设施与安全

该模型由 NVIDIA GB200/GB300 NVL72 共同设计。Codex 使用 GPT-5.5 优化了其自身基础设施，使 token 生成速度提升了 +20%。在网络安全方面，GPT-5.5 在 OpenAI 的 Preparedness Framework 中被归类为 High（不是 Critical）；Trusted Access Cyber 计划也已扩展到它。

科学研究

除了代码之外，GPT-5.5 还帮助证明了一个关于 Ramsey 数的新定理（组合数学），并在 Lean 中完成了形式化验证。它还在几分钟内分析了一个包含 62 个样本和 28,000 个基因的基因组数据集——这项任务若由研究团队完成，可能需要数月时间。

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇨🇳 GPT-5.5 明显比 GPT-5.4 更聪明，也更有持久性，在编码方面表现更好，工具使用也更可靠。 — Michael Truell，Cursor 联合创始人兼 CEO

🔗 GPT-5.5 公告

持久化代理浪潮

这 4 月 23 日有三项重大公告围绕持久化代理展开：这种代理能够长时间自主行动，并在不同会话之间保留上下文。

ChatGPT 中的 OpenAI Workspace Agents

4月22日 — OpenAI 推出 工作空间代理（Workspace Agents）：这是团队创建一次、可在 ChatGPT 或 Slack 中共同使用并持续改进的共享代理。它们由云端 Codex 驱动，即使用户离线也能执行复杂任务。Workspace Agents 正在逐步取代 GPT，而 GPT 在过渡期间仍可使用。

代理类型	功能
软件检查器	审查请求、比对政策、创建 IT 工单
产品反馈路由器	监控 Slack/支持/论坛 → 优先级工单
报告生成器	提取周五数据、创建图表、汇总
潜在客户代理	搜索线索、评估、撰写邮件、更新 CRM
第三方风险负责人	评估供应商、生成结构化报告

它们以 research preview 形式向 Business、Enterprise、Edu 和 Teachers 开放；截至 2026年5月6日 免费，之后按积分计费。

据 Ankur Bhatt（Rippling 的 AI Engineering）称，以前销售人员每周需要 5 到 6 小时才能完成的工作，现在会在每个商机上自动在后台执行。

🔗 Workspace Agents

Anthropic — Claude Managed Agents 的记忆

4月23日 — Claude Managed Agents 的记忆功能已在 Claude Platform 上以公开测试版提供。借助直接挂载在文件系统上的记忆层，代理现在可以在不同会话之间学习：它们使用的正是此前已用于代理任务的 bash 和代码执行能力。

功能	详情
可共享存储	多个代理，不同访问范围（只读 / 读写）
并发访问	并行会话之间不会覆盖
审计日志	哪个会话、哪个代理、哪段记忆
回退	可回退到任意先前版本
可导出性	可通过 API 管理记忆

客户结果说明了实际影响：

客户	结果
Rakuten	首次通过错误减少 97%，成本降低 27%，延迟降低 34%
Wisedocs	文档核验速度提升 30%
Netflix	会话之间上下文连续，无需手动更新
Ando	无需专用基础设施即可拥有平台记忆

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇨🇳 Managed Agents 中的记忆让我们能够将持续学习大规模投入生产。我们的代理会从每次会话中提炼经验，使首次通过错误减少 97%，成本降低 27%，延迟降低 34%。 — Yusuke Kaji，Rakuten Business AI 总经理

🔗 Managed Agents 记忆

Claude Code：质量事后分析与两个新版本

事后分析与使用限制重置

4月23日 — Claude Code 团队发布了关于过去一个月报告的三项质量问题的事后分析。这些问题均已在 v2.1.116+ 中修复。所有订阅用户的使用限制已重置。

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇨🇳 在过去一个月里，你们中的一些人报告了 Claude Code 质量下降。我们已经调查并发布了关于已识别三项问题的事后分析。所有问题均已在 v2.1.116+ 中修复，并且我们已为所有订阅用户重置使用限制。 — @ClaudeDevs

v2.1.117 和 v2.1.118

版本	主要功能
v2.1.118	Vim 可视模式 (`v`/`V`) 支持选择和操作符；统一的 `/usage`（合并 `/cost` 和 `/stats`）；`/theme` 中的自定义主题；通过 `type: "mcp_tool"` 调用 MCP 工具的 hooks；严格的 `DISABLE_UPDATES`；通过 WSL 继承 Windows managed settings
v2.1.117	默认 effort 对 Pro/Max 在 Opus 4.6 和 Sonnet 4.6 上提升到 `high`（原为 `medium`）；外部构建可启用子代理 fork；`glob`/`Grep` 被嵌入式 `bfs`/`ugrep` 取代，以加快搜索；修复 Opus 4.7 会话（1M 上下文被正确计算）；修复禁用 thinking 的 Bedrock+Opus 4.7

🔗 Claude Code 更新日志

面向日常生活的全新 Claude 连接器

4月23日 — Anthropic 将其连接器目录扩展到面向消费者的应用。自 2025 年 7 月以来，已有 200 多个面向专业工具的连接器可用；此次更新新增了 15 项日常服务。

应用	类别
AllTrails	徒步旅行
Audible	有声书
Booking.com	旅行
Instacart	在线购物
Intuit Credit Karma	金融
Intuit TurboTax	税务
Resy	餐厅预订
Spotify	音乐
StubHub	门票销售
Taskrabbit	家庭服务
Thumbtack	本地专业服务
TripAdvisor	旅行
Uber	交通
Uber Eats	餐食配送
Viator	旅游活动

Claude 现在会根据对话上下文自动建议相关连接器。可在所有套餐中使用（包括免费版），支持 web、desktop 和 mobile（mobile 为测试版）。没有付费置顶或赞助回复；某个应用的数据不会用于训练模型。

🔗 日常生活连接器

GitHub Copilot — 三天内七次更新

GitHub Copilot 在 4 月 22 日至 23 日之间的 changelog 中发布了七条更新。

Pull request 的聊天功能（3 项新能力）

4月23日 — Copilot Chat 现在为 pull request 集成了三项能力，可通过 github.com/copilot 或 diff 上的 Copilot 按钮访问（公开预览）：

PR 理解（pull request understanding）：将评论、变更、提交和审查作为上下文
PR 审查：按需进行结构化审查
PR 摘要：对变更进行简明总结

🔗 Copilot Chat PR 改进

可从 issues 和 projects 驱动的代理会话

4月23日 — 云代理现在可以直接从 GitHub issues 和 projects 看板中驱动：issue 标头中的会话指示器、进度侧边栏面板，以及在所有项目视图中默认启用的会话。

🔗 来自 issues 的代理会话

Web 上的结构化 stack traces 调试

4月23日 — github.com 上的 Copilot Chat 现在通过六个结构化步骤引导 stack traces 分析：出了什么问题、为什么、根本原因、来自代码的证据、置信度级别，以及后续检查项。

🔗 stack traces 调试

VS Code 中的 BYOK 现已可用（GA）

4月22日 — Bring Your Own Key（使用你自己的 API 密钥）已在 VS Code 中面向 Copilot Business 和 Enterprise 用户正式可用。支持 Anthropic、Gemini、OpenAI、OpenRouter、Azure，以及通过 Ollama 和 Foundry Local 使用本地模型。计费由所选提供商直接收取，不计入 Copilot 配额。

🔗 BYOK VS Code GA

Copilot CLI 的 C++ Language Server 公开预览

4月22日 — Microsoft C++ Language Server（Visual Studio/VS Code 的 IntelliSense 引擎）现已在 Copilot CLI 中提供公开预览。它提供精确的语义数据（符号定义、引用、调用层次结构、类型），取代迭代式 grep 搜索。前提条件：Copilot CLI 认证 + compile_commands.json。

🔗 C++ Language Server

暂停新的 Business self-serve 注册

4月22日 — GitHub 暂停了 GitHub Free 和 GitHub Team 计划中 Copilot Business 的新 self-serve 注册。现有客户不受影响。

🔗 暂停 Business self-serve

API 指标中的 `used_copilot_cloud_agent` 字段

4月23日 — 随着 “coding agent” → “cloud agent” 的品牌重塑，metrics API 在用户报告（滚动 1 天和 28 天）中新增了 used_copilot_cloud_agent 字段。旧字段 used_copilot_coding_agent 将保留到 2026 年 8 月 1 日。

🔗 云代理指标

Gemini CLI v0.39.0 和面向所有 Ultra 的 Deep Think ### Gemini CLI v0.39.0

4月23日 — Google 发布 Gemini CLI v0.39.0，这是标记为“Latest”的稳定版本。亮点是新增了 /memory inbox 命令，可在工作会话期间审查并验证 CLI 自动提取的 skills。

功能	描述
`/memory inbox`	审查自动提取的 skills
`invoke_subagent` 统一版	重构为单一界面的子代理工具
紧凑格式	紧凑模式下更易阅读
Plan 模式 — 需确认	激活 skills 前需要验证
轻量启动	更轻量的父进程，更快启动
JSONL 流式迁移	以 JSONL 记录聊天会话

新增键盘快捷键：Ctrl+Backspace 用于逐词删除（Windows Terminal），Ctrl+Shift+G。

🔗 Gemini CLI v0.39.0

Deep Think 向所有 Ultra 订阅者开放

4月22日 — Google 将 Deep Think 模式（深度推理，extended thinking）开放给所有 Gemini Ultra 订阅者。该模式此前仅限受邀访问；现在可直接从 Gemini 应用（网页和移动端）的工具菜单中使用。

🔗 GeminiApp 的推文

Kimi K2.6：300 个子代理的蜂群与 open-weights 基准测试

Agent Swarm — 300 个并行子代理

4月23日 — Moonshot AI 推出 Kimi K2.6 Agent Swarm：一个能够在每次运行中并行部署 300 个子代理、执行 4,000 步的系统，而 K2.5 只有 100 个代理和 1,500 步。

能力	K2.5	K2.6
并行子代理	100	300
每次运行步骤	1 500	4 000
输出类型	聊天文本	100+ 个真实文件、10 万词审阅、2 万行数据集

这些子代理融合了多种异构能力：网页搜索、数据分析、编码、长篇写作和视觉生成。可通过 kimi.com/agent-swarm 使用。

🔗 Kimi_Moonshot 的推文

基准测试：open-weights 第一名

4月23日 — Kimi K2.6 在两个基准测试中登顶 open-weights 模型榜首：

Design Arena：与 Claude Opus 4.7 处于同一性能带
MathArena open（Think 模式）：领先 GLM 5.1

🔗 Design Arena

SpaceXAI × Cursor 与 Grok Imagine

SpaceXAI × Cursor 合作

4月22日 — SpaceXAI（由 xAI/SpaceX 联合背景形成的实体）与 Cursor 宣布合作，共同打造“世界上性能最强的编码与知识工作 AI”。SpaceX 提供 Colossus 超级计算机（相当于一百万块 H100）；Cursor 则授予其在 2026 年稍后以 600 亿美元收购该公司的权利，或者仅为此次合作支付 100 亿美元。

🔗 SpaceX 的推文

Grok Imagine — 可共享的自定义模板

4月22日 — SuperGrok 和 Premium+ 订阅者现在可以在 Grok Imagine 中创建自定义模板并公开分享。

🔗 imagine 的推文

NVIDIA × Google Cloud Next

4月22日 — 在 Google Cloud Next（拉斯维加斯）上，NVIDIA 与 Google Cloud 宣布了围绕代理式 AI 基础设施的多项重大进展。

公告	详情
A5X 实例（Vera Rubin NVL72）	多站点集群中最多 960,000 个 Rubin GPU，每个 token 成本低 10×，每兆瓦吞吐量高 10×
Google Distributed Cloud 上的 Gemini	预览版，支持 Blackwell 和 Blackwell Ultra GPU — 数据主权
Blackwell Confidential VMs	公有云中首个 Blackwell 保密计算（confidential computing）产品
Nemotron 3 Super	可在 Gemini Enterprise Agent Platform 上使用
NeMo RL API	大规模托管强化学习（Reinforcement Learning）

🔗 NVIDIA × Google Cloud 博客

Kling AI Video 3.0 — 原生 4K 模式

4月23日 — Kling AI 在其 Video 3.0 系列中推出 原生 4K 模式。4K 生成可一键完成，无需额外的 upscaling 步骤。视觉一致性（人物、文字、风格、光照）以原生分辨率保障，适合高端制作。企业用户也可通过 fal.ai 使用。

Kling AI 同时举办 4K Short Film Creative Contest，这是一项面向全球创作者的比赛，邀请他们提交使用新模式制作的短片。

🔗 Kling_ai 的推文

ChatGPT for Clinicians 与 OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

4月22日 — OpenAI 推出 ChatGPT for Clinicians，这是面向美国已验证医疗专业人士（医生、执业护士、医师助理、药剂师）的免费版本。该服务包括：用于复杂临床问题的 frontier 模型访问、用于重复性工作流程（转诊信、事先授权）的 skills、带引用的实时临床研究，以及自动生成继续医学教育（CME）学分。HIPAA 处理可通过协议作为可选项提供。

OpenAI 还发布了 HealthBench Professional，这是一个开放基准，用于评估 AI 在真实临床任务中的表现（由医生评估的 70 万+ 条回答）。在具备网页访问且不限时的条件下，ChatGPT for Clinicians 中的 GPT-5.4 在该基准上超过了人类医生。

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

4月22日 — OpenAI 发布 Privacy Filter，这是一个 open-weight 模型（Apache 2.0），用于检测并遮蔽文本中的个人可识别信息（Personally Identifiable Information, PII）。该模型本地运行（不会向服务器发送任何数据），支持 128K tokens 上下文，并在 PII-Masking-300k 基准上取得了 97.43% 的 F1 分数。

特性	值
架构	双向 token 分类器（受约束的 Viterbi 解码）
大小	总计 1.5B 参数，50M 活跃参数
上下文	128 000 tokens
许可	Apache 2.0（Hugging Face + GitHub）
F1	修正后的 PII-Masking-300k 上为 97.43%

涵盖的 PII 类别：private_person、private_address、private_email、private_phone、private_url、private_date、account_number、secret（密码和 API 密钥）。

🔗 OpenAI Privacy Filter

Perplexity 与 Cohere

Perplexity 集成 Kimi K2.6

4月23日 — Moonshot AI 的 Kimi K2.6 现已向所有 Perplexity Pro 和 Max 订阅者开放。

🔗 perplexity_ai 的推文

Cohere — vLLM 中生产可用的 W4A8

4月22日 — Cohere 宣布将其 W4A8 推理（4 位权重、8 位激活量化）集成到 vLLM 中。在 Hopper GPU 上相较于 W4A16 的结果：首 token 时间（Time To First Token）提升 58%，输出 token 时间（Time Per Output Token）提升 45%。该集成优先面向大规模生产环境中的 MoE Command A 模型。

🔗 Cohere W4A8 博客

短讯

Suno 在音乐类 App Store 中排名第一

4月21日 — AI 音乐生成平台 Suno 登上 App Store 音乐类别榜首。CEO Mikey Shulman 表示：“音乐的未来，是人人都能享受创作的未来。”

🔗 suno 的推文

Anthropic Economic Index Survey

4月22日 — Anthropic 推出 Anthropic Economic Index Survey，这是一项通过 Anthropic Interviewer 对 Claude 用户随机样本进行的月度调查。目标是收集有关 AI 经济影响的定性数据：被委派的任务、生产率提升、角色变化。结果将用于未来的 Anthropic Economic Index 报告。

🔗 调查公告

Anthropic — 生产中的 MCP 代理：数据

4月22日 — Anthropic 的一篇技术文章记录了 MCP 对生产代理的益处：MCP SDK 每月下载量超过 3 亿次，工具搜索（tool search）将工具定义 tokens 减少了 85%，而程序化工具调用（programmatic tool calling）在复杂多步骤工作流中将 token 使用量减少了 37%。

🔗 MCP 生产代理博客

OpenAI — Responses API 中的 WebSockets：延迟降低 40%

4月22日 — OpenAI 的一篇回顾文章解释了 Responses API 中的 WebSocket 模式如何将 agent 循环的延迟降低 40%。持久连接会在内存中保留先前响应的状态缓存，避免在每次调用时重新处理全部历史记录。已投入生产：Codex、Vercel AI SDK、Cline（+39%）、Cursor（+30%）。

🔗 WebSockets 文章

Perplexity Research — 增强型检索模型训练

4月22日 — Perplexity 发布了一项关于其 SFT + RL（Supervised Fine-Tuning + Reinforcement Learning）流水线的研究，用于提升搜索答案质量。关键结果：经过后训练的 Qwen 模型以更低成本达到了 GPT 模型的事实准确性。

🔗 Perplexity Research

这意味着什么

2026 年 4 月 23 日呈现出两条趋同的趋势。一方面，GPT-5.5 证实 OpenAI 在 agentic 基准测试（Terminal-Bench、ARC-AGI-2、OSWorld）上重新夺回领先地位，此前数月一直由 Claude Opus 4.7 主导。SWE-Bench Pro 上的差距仍然很小，而 Anthropic 仍保持优势——这表明两家实验室对同样的优先用例达成了一致。

另一方面，这一天标志着 具备记忆的持久型代理 时代的到来：OpenAI Workspace Agents、Anthropic Managed Agents Memory 与 Kimi K2.6 Agent Swarm 同时亮相，但采用了不同方法（Slack 集成、基于文件系统、子代理蜂群），却拥有同一个目标——让代理在没有持续监督的情况下记住、学习并行动。Rakuten 的数据（错误率 -97%，成本 -27%）给出了这一影响在工业层面的初步衡量。

GitHub Copilot 继续将其深度集成策略推进到 GitHub.com 内部（PR 聊天、从 issue 发起的 agent sessions、结构化堆栈跟踪），同时通过 BYOK 向外开放。BYOK VS Code GA 说明 Copilot 正在同时将自己定位为接口和模型。

来源

本文件已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息，请参阅 https://github.com/jls42/ai-powered-markdown-translator