搜索

ChatGPT Images 2.0 avec thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

ChatGPT Images 2.0 avec thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

2026年4月21日,三项重大公告主导了 AI 新闻:OpenAI 推出具备推理能力的首个图像模型 ChatGPT Images 2.0,Google DeepMind 发布由 Gemini 3.1 Pro 驱动的两个自主研究代理,而 NVIDIA 则与 Adobe 和 WPP 加强三方合作,围绕企业营销创意代理展开。Claude Code、Codex 和 Git 2.54 也让这一天的工具更新内容相当丰富。


ChatGPT Images 2.0 和 gpt-image-2

4月21日 — OpenAI 推出 ChatGPT Images 2.0,现已面向所有 ChatGPT 和 Codex 用户立即开放。底层模型 gpt-image-2 也同时通过 API 提供。

这一新版本相较上一代有了明显突破:对详细指令遵循(instruction following)的支持显著提升,物体的定位与精确关系处理更加可靠,密集文本渲染经过改进,并且原生支持多种格式(竖版、横版、方形)。

思考模式(thinking 是最主要的新特性。ChatGPT Images 2.0 是 OpenAI 首个具备推理能力的图像模型。在 thinking 模式下,Plus、Pro 和 Business 订阅用户可用(Enterprise 即将推出),模型可以:

  • 实时搜索网络,获取最新信息
  • 基于单个 prompt 生成多张不同图片
  • 自动校验并修正自身输出

OpenAI 的研究团队在一篇 thread 中详细说明了应用场景:多语言渲染与精确文本、演示文稿与专业信息图、多种格式与分辨率、复杂指令遵循。

功能可用性
ChatGPT Images 2.0(标准版)所有 ChatGPT 和 Codex 用户
thinking 模式ChatGPT Plus、Pro、Business(Enterprise 即将推出)
API gpt-image-2立即可用

OpenAI 本次发布的核心表述是:该模型“从图像生成转向战略设计,从一个工具转向一个视觉系统”。

🔗 介绍 ChatGPT Images 2.0 🔗 OpenAI 推文


Google Deep Research 和 Deep Research Max

4月21日 — Google DeepMind 推出两个由 Gemini 3.1 Pro 驱动的自主研究代理:Deep ResearchDeep Research Max

这些代理既可浏览开放网络,也可访问自定义数据——内部文档、专业金融信息等——以生成带完整引用的专业报告。

Deep Research 针对速度和低延迟进行了优化,非常适合需要快速响应的界面。Deep Research Max 则利用更长的计算时间(extended test-time compute)进行迭代推理、细化检索,并生成高质量报告——面向后台异步处理场景设计。

功能细节
MCP 支持安全连接到自有或第三方数据源
原生视觉生成首个可生成图表和信息图的代理(HTML 或 Nano Banana 2)
协作式规划用户可在执行前完善研究计划
多模态支持 PDF、CSV、图片、音频、视频输入
可用性Gemini API、付费第三方、公开预览

原生视觉生成尤为值得注意:Deep Research Max 可以直接在报告中生成图表和信息图,通过 HTML 或 Nano Banana 2 实现,无需外部工具。Google Cloud 的初创公司和企业用户很快将获得即将公布的可用性。

🔗 Google DeepMind 公告 🔗 blog.google 文章


NVIDIA × Adobe × WPP — 面向企业营销的创意代理

4月20日 — NVIDIA 扩大其与 AdobeWPP 的战略合作,旨在将自主 AI 代理部署到企业营销运营中。该公告伴随着 Adobe Summit 于 4 月 21 日进行的现场演示,Jensen Huang(NVIDIA CEO)和 Shantanu Narayen(Adobe CEO)共同亮相。

新的 Adobe CX Enterprise Coworker 解决方案由基于以下组件的 AI 代理进行编排:

  • NVIDIA OpenShell:用于 agentic 工作流的安全、可观测、可审计运行环境
  • NVIDIA Agent Toolkit 和开源 Nemotron 模型
  • 由 NVIDIA AI 基础设施加速的 Adobe Firefly Foundry

具体来说,全球零售商现在可以在几分钟内而不是几个月内,生成数百万种产品/受众/渠道组合。3D 数字孪生(Omniverse + OpenUSD)则作为持久化产品身份,用于大规模自动化生成高保真内容。

🔗 blogs.nvidia.com 文章 🔗 NVIDIAAI 推文


Claude Code v2.1.116

4月19日至21日 — Claude Code v2.1.116 带来一系列针对性能、可靠性和终端体验的改进。

最显著的更新是:/resume 命令在大型会话(40 MB+)中最高快 67%,并更好地处理 “dead-fork” 输入。MCP 启动在配置了多个 stdio 服务器时也更快。

用户体验:

  • 思考指示器现在直接显示进度(“still thinking”、“thinking more”、“almost done thinking”),取代了单独的提示行
  • /config 可按选项值搜索(例如搜索 “vim” 会找到 Editor mode 参数)
  • 当 Claude 正在回复时即可打开 /doctor,无需等待轮次结束

安全性: 自带沙箱的 auto-allow 不再绕过针对 rm/rmdir、指向 /$HOME 或其他关键系统目录的危险路径检查。

8 项终端修复 包括:Kitty 键盘协议(Ctrl+-, Cmd+Left/Right)、Devanagari 脚本渲染、通过包装进程阻止 Ctrl+Z、inline 模式下 scrollback 重复,以及多项 VS Code/Warp/Ghostty 修复。

类别关键变化
性能/resume 在 40 MB+ 会话中快 67%
UX渐进式 thinking spinner、按值搜索 /config
安全性沙箱遵守关键路径保护
终端8 项修复(Kitty、VS Code、Warp、Ghostty、WezTerm)
插件自动安装缺失依赖

🔗 Claude Code 更新日志


Claude Cowork 中的 Live Artifacts

4月20日 — Anthropic 在 Claude Cowork 中推出 “Live Artifacts”:直接连接到用户应用和文件的动态仪表板与追踪器。

与传统的静态 artifacts 不同,Live Artifacts 在打开时会自动使用当前数据刷新。它们会保存在一个新的专用标签页中,并带有版本历史,可从任意会话访问。

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇨🇳 “在 Cowork 中,Claude 现在可以创建动态 artifacts:与你的应用和文件相连的仪表板和追踪器。你可以随时打开一个,它会用当前数据自动刷新。”@claudeai 在 X 上

该功能已通过 Claude 应用更新向所有付费套餐开放。

🔗 @claudeai 公告


企业版 Codex:Codex Labs 和 7 家系统集成伙伴

4月21日 — OpenAI 在 Codex 的企业部署上迈出新一步:每周有 400 万开发者在使用它(相比 4 月初的 300 万,短短两周增长 33%),并同步推出 Codex Labs 以及与 7 家全球系统集成商的合作计划。

Codex Labs 将 OpenAI 专家直接带入组织内部,通过实践工作坊和协作会议,帮助团队从实验性使用过渡到可复现的部署。

这 7 家系统集成伙伴(GSI)为:Accenture、Capgemini、CGI、Cognizant、Infosys、PwC 和 Tata Consultancy Services

公司Codex 用途
Virgin Atlantic测试覆盖,减少技术债务
Ramp加速代码审查(code review
Notion快速开发新功能
Cisco理解大型互联仓库
Rakuten事故响应(incident response

Codex 现在已扩展到软件开发之外:浏览器导航、图像生成、记忆、跨任务编排。

🔗 在全球企业中扩展 Codex


Google AI Studio 中的 Nano Banana Pro

4月20日Google AI Pro 和 Ultra 订阅用户现在可在 Google AI Studio 中获得更广泛的访问权限,无需 API key:可使用 Nano Banana ProGemini Pro 模型,并拥有更高的使用额度。

只需使用订阅账号登录,即可从原型阶段直接推进到生产阶段。这一变化使 Google AI 订阅成为开发者在无需面对按请求计费复杂性的情况下进行实验的实用桥梁。

🔗 GoogleAI 公告 🔗 blog.google 文章


开源 Kimi FlashKDA

4月21日 — Moonshot AI 开源发布 FlashKDA,这是其 Kimi Delta Attention(KDA)kernels 的高性能 CUTLASS 实现。

指标数值
相对 baseline 的 prefill 加速H20 上 1.72× 到 2.22×
集成flash-linear-attention 的即插即用 backend
前提条件SM90+、CUDA 12.9+、PyTorch 2.4+

FlashKDA 作为 flash-linear-attention 的可替换(drop-in)backend 使用。集成可通过 PR fla-org/flash-linear-attention#852 获得。

🔗 FlashKDA GitHub 仓库 🔗 @Kimi_Moonshot 推文


Git 2.54

4月20日 — Git 2.54 发布,带来三项结构性演进。

git history(实验性) — 一个新的子命令,用于重写历史而无需经过 git rebase -i

  • git history reword <commit>:修改提交信息并就地重写分支
  • git history split <commit>:交互式地将一个提交拆分为两个

基于配置的 hooks — hooks 现在也可以定义在 Git 配置文件中,而不再只限于 .git/hooks。这使得可以通过 ~/.gitconfig 在多个仓库间共享、为同一事件配置多个 hooks,并通过 hook.<name>.enabled = false 进行单独禁用。

默认几何重打包git maintenance 现在默认使用几何策略,在无需额外配置的情况下提升性能。

🔗 Git 2.54 要点 🔗 @github 推文


Genspark Build 公开预览

4月21日 — Genspark 推出 Genspark Build 的公开预览(public preview):一款由 Claude Opus 4.7 驱动的应用和网站创建工具,覆盖从创意到设计草图、原型和可运行代码的完整流程。

Plus 和 Pro 用户可在 4 月 21 日至 24 日(太平洋时间 9 点)期间免费使用 3 天,无需消耗 credits。Genspark 表示这是“rough edges and all”——该工具仍在积极开发中。

同一天,Genspark 还将 Lyria 3 Music 集成到其 AI Music Agent 中,并将 Gemini 3.1 Flash TTS 集成到其 AI Audio Agent 中。

🔗 Genspark Build 推文 🔗 Lyria 3 + TTS 推文


Cohere — 面向 MoE 模型的 speculative decoding 研究

4月21日 — Cohere 发布了一篇关于使用 speculative decoding 优化 mixture-of-experts(MoE)模型的技术研究文章。

团队在其生产中的 MoE 模型——包括 Command A(1110 亿参数)——上验证了一个随 batch size 呈非单调变化的收益曲线:收益先增加,随后下降。文中识别出两个关键机制:专家路由中的时间相关性将需要加载到内存中的唯一专家数量减少了 20% 到 31%,而固定成本摊销解释了 BS=1 时的高收益。

🔗 Cohere 文章


Genspark Claw:Kimi K2.6 首发上线

4月21日 — Genspark 通过与 Fireworks AI 的合作,在其 Claw 工具中于发布首日(Day 0)集成了 Kimi K2.6,后者在预发布和测试阶段提供了支持。

🔗 @genspark_ai 推文


Anthropic STEM Fellows Program

4月21日 — Anthropic 推出 STEM Fellows 计划,面向科学与工程领域专家,邀请他们在旧金山与研究团队并肩参与为期数月的项目。

🔗 @AnthropicAI 公告


这意味着什么

4 月 21 日标志着推理与多模态生成的汇合。gpt-image-2 展现出一个清晰趋势:生成式模型正在把推理作为编排层整合进去,而不仅仅是作为质量提升。其结果是,一个模型可以在同一会话中完成搜索、生成、验证和修正。

Deep Research Max 在研究侧推进了同样的逻辑:借助 MCP 支持,代理可以访问结构化的专有数据,这为无需将敏感数据导出到第三方服务的自主分析工作流打开了道路。

NVIDIA × Adobe × WPP 的合作表明,创意 AI 的企业级采用正在走出试点阶段。作为可审计运行时的 OpenShell 回应了大型组织的一个真实约束:自主代理不仅要高性能,还必须能够被观测和追踪。

在工具层面,Git 2.54 的基于配置 hooks 是一个低调但重要的架构演进:通过 ~/.gitconfig 在仓库之间共享 hooks,将改变团队在本地 CI 工作流标准化方面的实践。


来源 - 介绍 ChatGPT Images 2.0

此文档已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译流程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator