4 月 23 日 2026 年标志着信息密集的一天:OpenAI 推出 GPT-5.5,在 ARC-AGI-2 上达到 85%,并将 API 价格定为输入 $5/M tokens;与此同时,Anthropic 为其 Managed Agents 在 beta 中开启持久记忆,并发布了一篇关于 Claude Code 的事后分析。与此同时,GitHub Copilot 在三天内推出了七项更新,Kimi K2.6 部署了一个包含 300 个子 agent 的 swarm,而 SpaceX 则与 Cursor 达成了一项编码合作。
GPT-5.5:OpenAI 的 frontier 模型
4 月 23 日 — OpenAI 推出 GPT-5.5,这是其迄今最强大的模型,面向真实工作与 agents 设计。它显著提升了 agentic 编码、计算机使用(computer use)、知识工作和科学研究能力,同时保持了 GPT-5.4 的延迟表现。
可用性与定价
GPT-5.5 现已向 ChatGPT Plus、Pro、Business 和 Enterprise 订阅用户开放,同时也可在 Codex 中使用。API 访问“很快就会到来”。
| 方案 | API 访问 | 输入 | 输出 |
|---|---|---|---|
| GPT-5.5 standard | 即将推出 | $5 / M tokens | $30 / M tokens |
| GPT-5.5 Pro | 即将推出 | $30 / M tokens | $180 / M tokens |
Codex 中的上下文窗口达到 400K tokens。还提供 Fast 模式——速度快 1.5 倍,成本为 2.5 倍。
Benchmarks
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE(内部) | 73.1% | 68.5% | — | — |
| SWE-Bench Pro | 58.6% | 57.7% | 64.3% | 54.2% |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| ARC-AGI-2 | 85.0% | 73.3% | 75.8% | 77.1% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
| BixBench(生物信息学) | 80.5% | 74.0% | — | — |
GPT-5.5 在大多数 benchmarks 上领先,只有一个显著例外:SWE-Bench Pro,其中 Claude Opus 4.7 保持优势(64.3% 对 58.6%)。
基础设施与安全
该模型与 NVIDIA GB200/GB300 NVL72 共同设计。Codex 使用 GPT-5.5 优化了自己的基础设施,token 生成速度提升了 20%。在网络安全方面,GPT-5.5 在 OpenAI 的 Preparedness Framework 中被归类为 High(不是 Critical);Trusted Access Cyber 计划也已扩展给它。
科学研究
除了代码之外,GPT-5.5 还帮助证明了一个关于 Ramsey 数的新定理(组合数学),并在 Lean 中完成形式化验证。它还在几分钟内分析了一个包含 62 个样本和 28,000 个基因的基因组数据集——这项任务原本需要研究团队数月时间。
« GPT-5.5 est nettement plus intelligent et persévérant que GPT-5.4, avec de meilleures performances en codage et une utilisation des outils plus fiable. »
🇨🇳 GPT-5.5 明显比 GPT-5.4 更聪明、更有毅力,在编码方面表现更强,工具使用也更可靠。 — Michael Truell, Cursor 联合创始人兼 CEO
持久化 agents 浪潮
三项重大公告在 4 月 23 日围绕持久化 agent 汇聚:这类 agent 能够长时间自主行动,并在不同 session 之间保留上下文。
ChatGPT 中的 OpenAI Workspace Agents
4 月 22 日 — OpenAI 推出 工作空间 agents(Workspace Agents):团队只需创建一次、可在 ChatGPT 或 Slack 中共同使用并持续改进的共享 agents。它们由云端 Codex 驱动,即使用户离线也能执行复杂任务。Workspace Agents 正在逐步取代 GPT,而 GPT 在过渡期间仍可继续使用。
| Agent 类型 | 功能 |
|---|---|
| 软件检查器 | 审查请求、比对政策、创建 IT 工单 |
| 产品反馈路由器 | 监控 Slack/支持/论坛 → 优先级工单 |
| 报告生成器 | 周五提取数据、生成图表、汇总 |
| 销售线索 agent | 搜索潜在客户、评估、撰写邮件、更新 CRM |
| 第三方风险负责人 | 评估供应商、生成结构化报告 |
面向 Business、Enterprise、Edu 和 Teachers 提供 research preview;截至 2026 年 5 月 6 日 免费,之后按 credits 计费。
据 Ankur Bhatt(Rippling AI Engineering)称,原先销售团队每周要花 5 到 6 小时的工作,如今已在每个商机上自动在后台执行。
Anthropic — Claude Managed Agents 的记忆
4 月 23 日 — Claude Managed Agents 的记忆功能已在 Claude Platform 上进入公开 beta。现在,agents 可以通过直接挂载在文件系统上的记忆层,在不同 session 之间学习;这些 agents 使用的 bash 和 code 执行能力,与它们已经用于 agentic 任务的能力相同。
| 功能 | 细节 |
|---|---|
| 可共享存储 | 多个 agents,不同访问范围(只读 / 读写) |
| 并发访问 | 并行 session 之间不会互相覆盖 |
| 审计日志 | 哪个 session、哪个 agent、哪段记忆 |
| 回退 | 可回退到任意先前版本 |
| 可导出性 | memories 可通过 API 管理 |
客户结果展示了实际影响:
| 客户 | 结果 |
|---|---|
| Rakuten | 首次通过错误率 -97%,成本 -27%,延迟 -34% |
| Wisedocs | 文档核验速度 +30% |
| Netflix | session 间上下文连续,无需手动更新 |
| Ando | 无需专用基础设施的 platform memory |
Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.
🇨🇳 Claude Managed Agents 中的记忆让我们能够将持续学习大规模投入生产。我们的 agents 会提炼每个 session 的经验,从而带来首次通过错误减少 97%、成本降低 27%、延迟降低 34%。 — Yusuke Kaji, Rakuten Business AI 总经理
Claude Code:质量事后分析与两个新版本
事后分析与重置限制
4 月 23 日 — Claude Code 团队发布了一篇关于上个月报告的三项质量问题的 post-mortem。所有问题都已在 v2.1.116+ 中修复。所有订阅者的使用限制已被重置。
Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.
🇨🇳 在过去一个月里,你们中的一些人报告说 Claude Code 的质量有所下降。我们已经进行了调查,并发布了对所发现三项问题的 post-mortem。所有问题都已在 v2.1.116+ 中修复,而且我们已为所有订阅者重置了使用限制。 — @ClaudeDevs
v2.1.117 和 v2.1.118
| 版本 | 主要功能 |
|---|---|
| v2.1.118 | Vim 可视模式(v/V),支持选择和 operator;统一的 /usage(合并 /cost 和 /stats);/theme 中的自定义主题;通过 type: "mcp_tool" 调用 MCP tools 的 hooks;严格 DISABLE_UPDATES;通过 WSL 继承 Windows managed settings |
| v2.1.117 | Pro/Max 在 Opus 4.6 和 Sonnet 4.6 上的默认 effort 提升到 high(原为 medium);外部 builds 上可启用 sub-agent fork;glob/Grep 被替换为更快研究用的内嵌 bfs/ugrep;Opus 4.7 session 修复(1M context 计算正确);修复 Bedrock+Opus 4.7 在 thinking 关闭时的问题 |
面向日常生活的新 Claude connectors
4 月 23 日 — Anthropic 将其 connectors 目录扩展到了面向消费者的应用。自 2025 年 7 月以来,已有 200 多个面向专业工具的 connectors 可用;这次更新新增了 15 项日常服务。
| 应用 | 类别 |
|---|---|
| AllTrails | 徒步 |
| Audible | 有声书 |
| Booking.com | 旅行 |
| Instacart | 在线购物 |
| Intuit Credit Karma | 金融 |
| Intuit TurboTax | 税务 |
| Resy | 餐厅预订 |
| Spotify | 音乐 |
| StubHub | 售票 |
| Taskrabbit | 上门服务 |
| Thumbtack | 本地专业人士 |
| TripAdvisor | 旅行 |
| Uber | 交通 |
| Uber Eats | 餐食配送 |
| Viator | 旅游活动 |
Claude 现在会根据对话上下文自动建议相关 connectors。适用于所有方案(含免费),web、desktop 和 mobile(mobile 为 beta)。没有付费置顶,也没有赞助回复;某个 app 的数据不会用于训练模型。
GitHub Copilot — 三天七次更新
GitHub Copilot 在 4 月 22 日至 23 日之间发布了 changelog 中的七条条目。
pull requests 的 Chat(3 项新能力)
4 月 23 日 — Copilot Chat 现已为 pull requests 集成三项能力,可通过 github.com/copilot 或 diffs 上的 Copilot 按钮访问(公开 preview):
- PR 理解(pull request understanding):将评论、变更、commits 和 review 作为上下文整合
- PR review:按需进行结构化 review
- PR 摘要:对变更进行简明摘要
可从 issues 和 projects 控制的 agent sessions
4 月 23 日 — cloud agent 现在可直接从 GitHub issues 和项目 boards 中控制:issue 标头中的 session 指示器、进度侧边栏、以及所有项目视图中默认启用的 sessions。
在 web 上对 stack traces 进行结构化调试
4 月 23 日 — github.com 上的 Copilot Chat 现在会以六个结构化步骤引导 stack traces 分析:出了什么问题、为什么、根因、来自代码的证据、置信度以及下一步检查。
VS Code 中的 BYOK 现已 GA
4 月 22 日 — Bring Your Own Key(带上你自己的 API key)已在 VS Code 中面向 Copilot Business 和 Enterprise 用户正式可用。支持 Anthropic、Gemini、OpenAI、OpenRouter、Azure,以及通过 Ollama 和 Foundry Local 的本地模型。计费由所选供应商直接进行,不计入 Copilot 配额。
面向 Copilot CLI 的 C++ Language Server 公开 preview
4 月 22 日 — Microsoft C++ Language Server(Visual Studio/VS Code 的 IntelliSense 引擎)现已面向 Copilot CLI 提供公开 preview。它提供精确的语义数据(符号定义、引用、调用层级、类型),替代迭代式 grep 搜索。前提条件:Copilot CLI 认证 + compile_commands.json。
暂停新的 Business self-serve 注册
4 月 22 日 — GitHub 暂停了 GitHub Free 和 GitHub Team 方案上 Copilot Business 的新的 self-serve 注册。现有客户不受影响。
API metrics 中的 used_copilot_cloud_agent 字段
4 月 23 日 — 随着“coding agent”重命名为“cloud agent”,metrics API 在用户报告(1 天和 28 天滚动)中新增了 used_copilot_cloud_agent 字段。旧字段 used_copilot_coding_agent 将保留至 2026 年 8 月 1 日。
Gemini CLI v0.39.0 与面向所有 Ultra 用户的 Deep Think
Gemini CLI v0.39.0
4 月 23 日 — Google 发布 Gemini CLI v0.39.0,标记为 “Latest”的稳定版本。亮点是新的 /memory inbox 命令,用于在工作 session 中审查并验证 CLI 自动提取的 skills。
| 功能 | 描述 |
|---|---|
/memory inbox | 审查自动提取的 skills |
统一的 invoke_subagent | 以统一接口重构的 sub-agent 工具 |
| 紧凑格式化 | compact 模式下更易读 |
| Plan Mode — 确认 | 激活 skills 前需要确认 |
| 精简启动 | 轻量父进程以更快启动 |
| JSONL streaming 迁移 | 将 chat sessions 记录为 JSONL |
新增快捷键:Ctrl+Backspace 用于按词删除(Windows Terminal),Ctrl+Shift+G。
面向所有 Ultra 订阅者开放 Deep Think
4 月 22 日 — Google 将 Deep Think 模式(深度推理,extended thinking)开放给所有 Gemini Ultra 订阅者。该模式此前仅限部分用户使用;现在可直接从 Gemini app(web 和 mobile)的工具菜单中使用。
Kimi K2.6:300 个子 agent 的 swarm 与 open-weights benchmarks
Agent Swarm — 300 个并行子 agent
4 月 23 日 — Moonshot AI 推出 Kimi K2.6 Agent Swarm:一个系统,能够在每次执行中并行部署 300 个子 agent,跨越 4,000 个步骤,而 K2.5 只有 100 个 agent 和 1,500 个步骤。
| 能力 | K2.5 | K2.6 |
|---|---|---|
| 并行子 agent | 100 | 300 |
| 每次执行步骤数 | 1,500 | 4,000 |
| 输出类型 | 聊天文本 | 100+ 个真实文件、10 万词 review、2 万行 datasets |
这些子 agent 融合了多种不同技能:web 研究、数据分析、编码、长篇写作和视觉生成。可在 kimi.com/agent-swarm 使用。
Benchmarks:open-weights 第一名
4 月 23 日 — Kimi K2.6 在两个 benchmarks 上登顶 open-weights 模型第一名: - Design Arena:与 Claude Opus 4.7 相同的性能带宽
- MathArena open(Think 模式):领先 GLM 5.1
SpaceXAI × Cursor 和 Grok Imagine
SpaceXAI × Cursor 合作
4月22日 — SpaceXAI(由 xAI/SpaceX 合并产生的实体)与 Cursor 宣布合作,共同打造“世界上性能最强的编程与知识工作 AI”。SpaceX 提供 Colossus 超级计算机(相当于一百万张 H100);Cursor 则授予其在 2026 年晚些时候以 600 亿美元收购该公司的权利,或者仅为此次合作支付 100 亿美元。
Grok Imagine — 可分享的自定义模板
4月22日 — SuperGrok 和 Premium+ 订阅者现在可以在 Grok Imagine 中创建自定义模板,并公开分享。
NVIDIA × Google Cloud Next
4月22日 — 在 Google Cloud Next(拉斯维加斯)上,NVIDIA 与 Google Cloud 宣布了围绕 agentic AI 基础设施的多项重大进展。
| 公告 | 细节 |
|---|---|
| A5X 实例(Vera Rubin NVL72) | 多站点集群中最多 960,000 个 Rubin GPU,每个 token 成本低 10 倍,每兆瓦吞吐量高 10 倍 |
| Google Distributed Cloud 上的 Gemini | 预览版,配备 Blackwell 和 Blackwell Ultra GPU——数据主权 |
| Blackwell Confidential VMs | 公有云中的首个 Blackwell confidential computing 计算产品 |
| Nemotron 3 Super | 可在 Gemini Enterprise Agent Platform 上使用 |
| NeMo RL API | 大规模托管式强化学习(Reinforcement Learning) |
Kling AI Video 3.0 — 原生 4K 模式
4月23日 — Kling AI 在其 Video 3.0 系列中推出原生 4K模式。4K 生成只需一键完成,无需额外的上采样步骤。视觉一致性(人物、文本、风格、光照)以原生分辨率保障,适合高端制作。企业也可通过 fal.ai 使用。
Kling AI 同时举办 4K Short Film Creative Contest,这是一项面向全球创作者的比赛,邀请他们提交使用新模式制作的短片。
ChatGPT for Clinicians 和 OpenAI Privacy Filter
ChatGPT for Clinicians + HealthBench Professional
4月22日 — OpenAI 推出 ChatGPT for Clinicians,这是面向美国已验证医疗专业人员的免费版本(医生、执业护士、医师助理、药剂师)。该服务包括:用于复杂临床问题的 frontier 模型访问;用于重复性工作流的 skills(转诊信、事前授权);带引用的实时临床研究;以及自动生成继续医学教育(CME)学分。若有协议,还可通过 HIPAA 选项进行处理。
OpenAI 还发布了 HealthBench Professional,这是一个开放 benchmark,用于评估 AI 在真实临床任务中的表现(由医生评估的 700,000+ 条回答)。在开放时间限制并可访问 web 的条件下,ChatGPT for Clinicians 中的 GPT-5.4 在该 benchmark 上超过了人类医生。
OpenAI Privacy Filter
4月22日 — OpenAI 发布 Privacy Filter,这是一款 open-weight(Apache 2.0)模型,用于检测并屏蔽文本中的个人可识别信息(Personally Identifiable Information, PII)。该模型在本地运行(不会向服务器发送任何数据),支持 128K tokens 上下文,并在 PII-Masking-300k benchmark 上取得 97.43% 的 F1 分数。
| 特性 | 数值 |
|---|---|
| 架构 | 双向 token 分类器(受限 Viterbi 解码) |
| 大小 | 总计 15 亿参数,激活 5000 万 |
| 上下文 | 128,000 tokens |
| 许可证 | Apache 2.0(Hugging Face + GitHub) |
| F1 | 在修正后的 PII-Masking-300k 上为 97.43% |
覆盖的 PII 类别:private_person、private_address、private_email、private_phone、private_url、private_date、account_number、secret(密码和 API keys)。
Perplexity 和 Cohere
Perplexity 集成 Kimi K2.6
4月23日 — Moonshot AI 的 Kimi K2.6 现已向 Perplexity 的所有 Pro 和 Max 订阅用户开放。
Cohere — vLLM 中可直接用于生产的 W4A8
4月22日 — Cohere 宣布将其 W4A8 推理(权重 4 位量化、激活 8 位量化)集成到 vLLM 中。Hopper GPU 相比 W4A16 的结果:首 token 时间(Time To First Token)提升 58%,输出 token 时间(Time Per Output Token)提升 45%。该集成优先面向生产环境中的大规模 MoE Command A 模型。
简讯
Suno 位列音乐类 App Store 第一
4月21日 — AI 音乐生成平台 Suno 登上 App Store 音乐分类第一名。CEO Mikey Shulman 表示:“音乐的未来将是每个人都享受创作的未来。”
🔗 @suno 推文
Anthropic Economic Index Survey
4月22日 — Anthropic 推出 Anthropic Economic Index Survey,这是一项通过 Anthropic Interviewer 面向随机抽样 Claude 用户开展的月度调查。目标是收集关于 AI 经济影响的定性数据:被委托的任务、生产力提升、角色变化。结果将用于未来的 Anthropic Economic Index 报告。
🔗 调查公告
Anthropic — 生产环境中的 MCP Agents:数据
4月22日 — Anthropic 的一篇技术文章记录了 MCP 对生产环境 agents 的收益:MCP SDK 的月下载量超过 3 亿次,tool search 将工具定义 token 减少了 85%,programmatic tool calling 在复杂多步骤工作流中将 token 使用量减少了 37%。
OpenAI — Responses API 中的 WebSockets:延迟降低 40%
4月22日 — OpenAI 的回顾文章解释了 Responses API 中的 WebSocket 模式如何将 agents 循环的延迟降低 40%。持久连接会在内存中缓存先前响应的状态,避免在每次调用时重处理全部历史。已投入生产:Codex、Vercel AI SDK、Cline(+39%)、Cursor(+30%)。
Perplexity Research — 训练检索增强模型
4月22日 — Perplexity 发布了一项关于其 SFT + RL(Supervised Fine-Tuning + Reinforcement Learning)流水线的研究,以提升搜索回答质量。关键结果:后训练的 Qwen 模型以更低成本达到了 GPT 模型的事实准确性。
这意味着什么
2026 年 4 月 23 日呈现出两条趋同趋势。一方面,GPT-5.5 证实 OpenAI 在 agentic benchmarks(Terminal-Bench、ARC-AGI-2、OSWorld)上重新夺回领先地位,此前数月一直由 Claude Opus 4.7 主导。SWE-Bench Pro 上的差距仍然很小,Anthropic 保持优势——这表明两家实验室对优先级最高的用例有着相同判断。
另一方面,这一天标志着具备记忆的持久 agents 时代到来:OpenAI Workspace Agents、Anthropic Managed Agents Memory 和 Kimi K2.6 Agent Swarm 同时出现,采用了不同方法(Slack 集成、filesystem-based、由多个子 agent 组成的 swarm),但目标一致——让 agent 记住、学习并在无需持续监督的情况下行动。Rakuten 的数据(错误减少 97%、成本降低 27%)为其产业影响提供了初步衡量。
GitHub Copilot 继续将自己深度集成进 GitHub.com(PR chat、从 issues 开始的 agent sessions、结构化 stack traces),同时也通过 BYOK 向外开放。BYOK VS Code GA 表明,Copilot 既在定位为接口,也在定位为模型。
来源
- GPT-5.5 — OpenAI
- OpenAI GPT-5.5 推文
- Workspace Agents — OpenAI
- Workspace Agents 推文
- ChatGPT for Clinicians
- OpenAI Privacy Filter
- WebSockets API Responses — OpenAI
- Managed Agents Memory — Anthropic
- 日常生活连接器 — Anthropic
- 连接器推文 — @claudeai
- Claude Code 事后分析 — @ClaudeDevs
- @bcherny 推文
- CHANGELOG Claude Code
- MCP production agents — Anthropic
- Anthropic Economic Index Survey
- Copilot Chat PR 改进
- 从 issues 查看和管理 Copilot agent sessions
- Copilot 网页端调试 stack traces
- Copilot BYOK VS Code GA
- Copilot C++ Language Server
- Copilot Business self-serve pause
- Copilot 云 agent 指标
- Gemini CLI v0.39.0
- Gemini Deep Think Ultra — @GeminiApp
- Kimi K2.6 Agent Swarm — @Kimi_Moonshot
- Kimi K2.6 Design Arena
- Kimi K2.6 MathArena
- SpaceXAI × Cursor — @SpaceX
- Grok Imagine templates — @imagine
- NVIDIA × Google Cloud Next
- Kling AI Video 3.0 Mode 4K
- Kling AI 4K Short Film Contest
- Perplexity Kimi K2.6
- Perplexity Research Search-Augmented LMs
- Cohere W4A8 vLLM
- Suno App Store 第一名
本文档已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator