検索

ChatGPT Images 2.0 と thinking、Gemini Deep Research Max、NVIDIA x Adobe x WPP

ChatGPT Images 2.0 と thinking、Gemini Deep Research Max、NVIDIA x Adobe x WPP

2026年4月21日、AI業界のニュースは3つの大きな発表が主役となった。OpenAIは推論可能な初の画像モデルを備えたChatGPT Images 2.0を発表し、Google DeepMindはGemini 3.1 Proを搭載した2つの自律型リサーチエージェントを公開し、NVIDIAはAdobeおよびWPPとの三者連携を強化して、企業向けマーケティングのためのクリエイティブエージェントを展開した。Claude Code、Codex、Git 2.54も加わり、ツール面の更新が充実した一日となった。


ChatGPT Images 2.0 と gpt-image-2

4月21日 — OpenAIは、ChatGPT Images 2.0を発表し、ChatGPTとCodexのすべてのユーザーが直ちに利用可能となった。基盤モデルであるgpt-image-2も、同時にAPI経由で利用可能になった。

この新バージョンは、前世代からの大きな転換を示す。詳細な指示追従(instruction following)が大幅に改善され、物体の配置や正確な関係性の表現がより信頼できるものになり、密度の高いテキスト描画も刷新された。また、複数の形式(縦長、横長、正方形)がネイティブにサポートされる。

**思考モード(thinking)**が最大の新機能だ。ChatGPT Images 2.0は、推論能力を備えたOpenAI初の画像モデルである。Plus、Pro、Businessの加入者向けに利用可能なthinkingモード(Enterpriseは近日対応予定)では、モデルは次のことができる。

  • 最新情報を得るためにリアルタイムでウェブ検索する
  • 1つのプロンプトから複数の別々の画像を生成する
  • 自身の出力を自己検証し、修正する

OpenAIの研究チームは、利用例をスレッドで詳しく説明した。多言語レンダリングと正確なテキスト、プロ向けのスライドやインフォグラフィック、複数形式と解像度、複雑な指示追従である。

機能利用可能性
ChatGPT Images 2.0(標準)すべてのChatGPTおよびCodexユーザー
thinkingモードChatGPT Plus、Pro、Business(Enterpriseは近日)
API gpt-image-2ただちに利用可能

この発表に対するOpenAIの方針は、「モデルは画像生成から戦略的デザインへ、単なるツールから視覚システムへ移行する」というものだ。

🔗 ChatGPT Images 2.0 の紹介 🔗 @OpenAIのツイート


Google Deep Research と Deep Research Max

4月21日 — Google DeepMindは、Gemini 3.1 Proを搭載した2つの自律型リサーチエージェント、Deep ResearchDeep Research Max を発表した。

これらのエージェントは、オープンなウェブとカスタムデータの両方を横断し、社内文書や専門的な金融情報などを活用して、完全に引用付きのプロフェッショナルなレポートを生成する。

Deep Research は速度と低レイテンシーに最適化されており、迅速な応答を要するインターフェースに最適だ。Deep Research Max は、拡張された計算時間(extended test-time compute)を活用して反復的に推論し、検索を洗練させ、高品質なレポートを生成する。非同期のバックグラウンド処理向けに設計されている。

機能詳細
MCP対応独自ソースや第三者ソースへの安全な接続
ネイティブなビジュアル生成グラフやインフォグラフィックを生成する初のエージェント(HTMLまたはNano Banana 2)
協調的な計画立案実行前にユーザーが調査計画を調整可能
マルチモダリティPDF、CSV、画像、音声、動画を入力として受け付ける
提供形態Gemini API、サードパーティ、有料ユーザー向け、パブリックプレビュー

ネイティブなビジュアル生成は注目に値する。Deep Research Maxは、外部ツールを使わずに、HTMLまたはNano Banana 2経由で、レポート内に直接グラフやインフォグラフィックを生成できる。Google Cloudのスタートアップや企業向けには、近日中に利用可能になる予定だ。

🔗 @GoogleDeepMindの発表 🔗 blog.googleの記事


NVIDIA × Adobe × WPP — 企業向けマーケティングのためのクリエイティブエージェント

4月20日 — NVIDIAは、Adobe および WPP との戦略的提携を拡大し、企業のマーケティング業務に自律型AIエージェントを展開する。発表は4月21日のAdobe Summitでのライブデモを伴い、Jensen Huang(NVIDIA CEO)とShantanu Narayen(Adobe CEO)が登場した。

新ソリューション Adobe CX Enterprise Coworker は、次の基盤に依拠するAIエージェントによって統合されている。

  • NVIDIA OpenShell:エージェント型ワークフローのための、安全で可観測かつ監査可能な実行環境
  • NVIDIA Agent Toolkit とオープンソースモデル Nemotron
  • NVIDIA AIインフラで高速化された Adobe Firefly Foundry

具体的には、世界的な小売企業は今や、製品・オーディエンス・チャネルの何百万通りもの組み合わせを、数か月ではなく数分で生成できる。3Dデジタルツイン(Omniverse + OpenUSD)は、コンテンツを大規模に高忠実度で自動生成するための、永続的な製品IDとして機能する。

🔗 blogs.nvidia.comの記事 🔗 @NVIDIAAIのツイート


Claude Code v2.1.116

4月19〜21日 — Claude Code v2.1.116 は、パフォーマンス、信頼性、ターミナル体験に焦点を当てた一連の改善を提供する。

最も体感しやすい更新は、/resume コマンドが大規模セッション(40MB超)で最大67%高速化され、“dead-fork”入力の扱いも改善されたことだ。MCPの起動も、複数のstdioサーバーを設定している場合により高速になった。

ユーザー体験:

  • 思考インジケーターが、別行のヒントを置き換える形で、進捗を行内に表示するようになった(“still thinking”, “thinking more”, “almost done thinking”)
  • /config はオプション値で検索できるようになった(例:「vim」でEditor modeパラメータが見つかる)
  • /doctor は、Claudeの応答中でも、ターン終了を待たずに開ける

セキュリティ: 自動許可サンドボックスは、rm/rmdir/$HOME、その他の重要なシステムディレクトリを対象にする際、危険なパスの検証を回避しなくなった。

8件のターミナル修正 には、Kittyキーボードプロトコル(Ctrl+-, Cmd+Left/Right)、Devanagariスクリプトの描画、ラッパープロセス経由のCtrl+Zブロック、インラインモードでのscrollback重複、そして複数のVS Code/Warp/Ghostty修正が含まれる。

カテゴリ主な変更
パフォーマンス/resume が40MB超のセッションで67%高速化
UX段階的なthinkingスピナー、/config を値で検索
セキュリティサンドボックスが重要なパスの保護を尊重
ターミナル8件の修正(Kitty、VS Code、Warp、Ghostty、WezTerm)
プラグイン不足している依存関係を自動インストール

🔗 Claude Code のCHANGELOG


Claude Cowork の Live Artifacts

4月20日 — AnthropicはClaude Coworkに「Live Artifacts」を導入した。ユーザーのアプリやファイルに直接接続された、動的なダッシュボードやトラッカーである。

従来の静的なアーティファクトとは異なり、Live Artifactsは開くと自動的に最新データで更新される。バージョン履歴付きの新しい専用タブに保存され、どのセッションからでもアクセスできる。

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇯🇵 “Coworkでは、Claudeが動的なアーティファクトを作成できるようになりました。アプリやファイルにつながったダッシュボードやトラッカーです。いつでも開くことができ、その時点の最新データで更新されます。”X上の@claudeai

この機能は、Claudeアプリの更新を通じて、すべての有料プランで利用可能だ。

🔗 @claudeaiの発表


企業向けCodex:Codex Labs と7社のSIパートナー

4月21日 — OpenAIはCodexの企業展開で新たな段階に進んだ。毎週400万人の開発者が利用している(4月初旬の300万人から、2週間で+33%)ことに加え、Codex Labs と、7つのグローバルインテグレーターとの提携プログラムを同時に開始した。

Codex Labs は、OpenAIの専門家を組織内に直接招き、実践的なワークショップや作業セッションを行うもので、チームが試験的な利用から再現可能な展開へ移行するのを支援することを目的としている。

7つのSIパートナー(GSI)は、Accenture、Capgemini、CGI、Cognizant、Infosys、PwC、Tata Consultancy Services

企業Codexの用途
Virgin Atlanticテスト範囲の拡大、技術的負債の削減
Rampコードレビューの高速化
Notion新機能の迅速な開発
Cisco相互接続された大規模リポジトリの理解
Rakutenインシデント対応

Codexはソフトウェア開発を超えて拡張されている。ブラウザナビゲーション、画像生成、メモリ、横断的なタスクのオーケストレーションが含まれる。

🔗 Codexを世界中の企業に展開する


Google AI Studio での Nano Banana Pro

4月20日Google AI ProUltra の加入者は、APIキー不要で Google AI Studio へのアクセスが拡大された。Nano Banana ProGemini Pro モデルに、利用上限を引き上げた形でアクセスできる。

加入者アカウントでログインするだけで、プロトタイプから本番運用へ移行できる。この進化により、Google AIサブスクリプションは、課金の複雑さなしに試したい開発者にとって、実用的な橋渡しとなる。

🔗 @GoogleAIの発表 🔗 blog.googleの記事


Kimi FlashKDA のオープンソース公開

4月21日 — Moonshot AIは、Kimi Delta Attention(KDA)カーネルの高性能CUTLASS実装である FlashKDA をオープンソースで公開した。

指標
baseline比 prefill高速化H20で1.72倍〜2.22倍
統合flash-linear-attention向けのドロップインバックエンド
前提条件SM90+、CUDA 12.9+、PyTorch 2.4+

FlashKDAは、flash-linear-attention向けの置き換え可能な(drop-in)バックエンドとして動作する。統合は PR fla-org/flash-linear-attention#852 経由で利用できる。

🔗 FlashKDA GitHubリポジトリ 🔗 @Kimi_Moonshotのツイート


Git 2.54

4月20日 — Git 2.54 が3つの構造的な進化を伴って利用可能になった。

git history(実験的)git rebase -i を経由せずに履歴を書き換えるための新しいサブコマンド:

  • git history reword <commit> : コミットメッセージを変更し、ブランチを書き換えつつその場で反映する
  • git history split <commit> : 1つのコミットを対話的に2つに分割する

Config-based hooks — hooksを、.git/hooks だけでなくGit設定ファイル内で定義できるようになった。これにより、~/.gitconfig を通じた複数リポジトリ間での共有、同じイベントに対する複数hooks、hook.<name>.enabled = false による個別無効化が可能になる。

デフォルトのgeometric repackinggit maintenance は今やデフォルトでgeometric戦略を使用し、追加設定なしで性能を改善する。

🔗 Git 2.54 のハイライト 🔗 @githubのツイート


Genspark Build の公開プレビュー

4月21日 — Gensparkは、Claude Opus 4.7 を搭載したアプリとウェブサイト作成ツール Genspark Build を、**公開プレビュー(public preview)**として発表した。アイデアからワイヤーフレーム、デザイン、プロトタイプ、そして動作するコードまで、制作プロセス全体をカバーする。

PlusとProのユーザーは、4月21日から24日までの3日間、クレジット不要で利用できる(PT 9時)。Gensparkは「rough edges and all」と説明しており、ツールは現在も活発に開発中である。

同日、Gensparkは自社のAI Music AgentにLyria 3 Musicを、AI Audio AgentにGemini 3.1 Flash TTSも統合した。

🔗 Genspark Buildのツイート 🔗 Lyria 3 + TTSのツイート


Cohere — MoEモデル向けのspeculative decodingに関する研究

4月21日 — Cohereは、speculative decodingを用いてMixture-of-Experts(MoE)モデルを最適化するための技術論文を公開した。

同社は、本番運用中のMoEモデル群、特にCommand A(1110億パラメータ)で、バッチサイズに応じて非単調な効果曲線を確認した。まず効果が増大し、その後低下する。2つの主要メカニズムが特定された。エキスパートルーティングにおける時間的相関により、メモリへ読み込む必要のある一意のエキスパート数が20〜31%減少すること、そして固定コストの償却がBS=1で高い効果を説明することだ。

🔗 Cohereの記事


Genspark Claw : Kimi K2.6 を初日から搭載

4月21日 — Gensparkは、Fireworks AIとの提携を通じて、事前ローンチおよびテスト段階を支援していた Kimi K2.6 を、Clawツールにローンチ当日(Day 0)から統合した。

🔗 @genspark_aiのツイート


Anthropic STEM Fellows Program

4月21日 — Anthropicは、サンフランシスコを拠点に、数か月単位のプロジェクトで研究チームと並んで働く科学・工学分野の専門家を対象とした STEM Fellows プログラムを開始した。

🔗 @AnthropicAIの発表


これが意味すること

4月21日は、推論とマルチモーダル生成の収束を示した。gpt-image-2は明確な傾向を示している。生成モデルは、品質向上だけでなく、オーケストレーション層として推論を取り込んでいる。その結果、1回のセッションで検索し、生成し、検証し、修正できるモデルが生まれる。

Deep Research Maxも、研究の側で同じロジックを押し進めている。MCPサポートにより、エージェントは構造化された独自データにアクセスできる。これにより、機密データを第三者サービスへエクスポートせずに、自律的な分析ワークフローを実現する道が開かれる。

NVIDIA × Adobe × WPP の提携は、クリエイティブAIの企業導入がパイロット段階を抜けつつあることを示している。監査可能なランタイムとしてのOpenShellは、大企業が直面する本当の制約に応える。自律型エージェントは、単に高性能であるだけでなく、観測可能で追跡可能でなければならない。

ツール面では、Git 2.54のconfig-based hooksは控えめだが重要なアーキテクチャ変更だ。~/.gitconfig を通じてリポジトリ間で共有されるhooksは、ローカルCIワークフローの標準化におけるチームの慣行を変えるだろう。


ソース - ChatGPT Images 2.0 の紹介

この文書は、モデル gpt-5.4-mini を使用して fr 版から ja 言語へ翻訳されました。翻訳プロセスの詳細については、https://gitlab.com/jls42/ai-powered-markdown-translator をご覧ください。