2026年4月23日は非常に濃い一日となった。OpenAIはARC-AGI-2で85%を記録し、API料金が入力$5/M tokensのGPT-5.5を発表し、一方AnthropicはClaude Codeに関するpost-mortemを公開するとともに、Managed Agents向けの永続メモリをベータで開放した。並行して、GitHub Copilotは3日間で7件の更新を出し、Kimi K2.6は300のサブエージェントからなるswarmを展開し、SpaceXはCursorとのコーディング提携を締結した。
GPT-5.5 : OpenAIのfrontierモデル
4月23日 — OpenAIは、実務とagents向けに設計された、同社史上最も強力なモデルである GPT-5.5 を発表した。これは、GPT-5.4のlatencyを維持しつつ、agentic coding、computer use、知識労働、科学研究を大幅に改善する。
提供状況と価格
GPT-5.5は、ChatGPT Plus、Pro、Business、Enterpriseの加入者に対して即時利用可能で、Codexでも利用できる。APIアクセスは「ごく近いうちに」提供される。
| プラン | APIアクセス | 入力 | 出力 |
|---|---|---|---|
| GPT-5.5 standard | まもなく | $5 / M tokens | $30 / M tokens |
| GPT-5.5 Pro | まもなく | $30 / M tokens | $180 / M tokens |
Codexのcontext windowは400K tokensに達する。Fastモード — 1.5倍高速、コスト2.5倍 — も利用可能だ。
benchmarks
| 評価 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE (内部) | 73.1% | 68.5% | — | — |
| SWE-Bench Pro | 58.6% | 57.7% | 64.3% | 54.2% |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| ARC-AGI-2 | 85.0% | 73.3% | 75.8% | 77.1% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
| BixBench(bioinformatics) | 80.5% | 74.0% | — | — |
GPT-5.5は大半のbenchmarkで首位に立っているが、注目すべき例外としてSWE-Bench Proがあり、そこではClaude Opus 4.7が優位を維持している(64.3%対58.6%)。
インフラと安全性
このモデルはNVIDIA GB200/GB300 NVL72と共同設計された。CodexはGPT-5.5を使って自らのインフラを最適化し、token生成速度を20%向上させた。サイバーセキュリティ面では、GPT-5.5はOpenAIのPreparedness Frameworkで High に分類されており(Criticalではない)、Trusted Access Cyberプログラムの対象も拡大された。
科学研究
コード以外でも、GPT-5.5はRamsey数(組合せ論)に関する新しい定理の証明を支援し、Leanで形式検証された。また、62サンプルと28,000遺伝子からなるゲノムデータセットの解析も数分で実行した。これは研究者チームなら数か月を要したはずの作業だ。
「GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use.」
🇯🇵 GPT-5.5はGPT-5.4より明らかに賢く、粘り強く、コーディング性能はより高く、tool useもより信頼できます。 — Michael Truell, Cursor共同創業者兼CEO
永続エージェントの波
4月23日には、長時間にわたって自律的に行動し、sessionをまたいでcontextを保持できるpersistent agentをめぐって、3つの大きな発表が重なった。
ChatGPTのOpenAI Workspace Agents
4月22日 — OpenAIは Workspace Agents を発表した。これは、チームが一度作成すれば、ChatGPTやSlackで共有して使え、徐々に改善していける共有型のagentsである。cloud上のCodexによって駆動され、ユーザーがオフラインでも複雑なタスクを実行できる。Workspace Agentsは、移行期間中は引き続き利用可能なGPTを、段階的に置き換えていく。
| agentの種類 | 機能 |
|---|---|
| ソフトウェア検証者 | リクエストを確認し、ポリシーを比較し、IT ticketを作成 |
| 返品ルーター | Slack/support/forumsを監視 → 優先順位付きticket |
| レポート生成者 | 金曜日のデータを抽出し、グラフと要約を作成 |
| 事業開拓agent | leadsを調査し、評価し、emailを下書きし、CRMを更新 |
| 第三者リスク責任者 | ベンダーを評価し、構造化レポートを作成 |
Business、Enterprise、Edu、Teachers向けにresearch previewとして利用可能で、2026年5月6日 までは無料、その後はcreditsで課金される。
Ankur Bhatt(AI Engineering, Rippling)によると、これまで営業担当者が週に5〜6時間かけていた作業は、今では各opportunityごとにバックグラウンドで自動実行されるという。
Anthropic — Claude Managed Agents向けメモリ
4月23日 — Claude Managed Agents 向けのメモリが、Claude Platformでpublic betaとして利用可能になった。これにより、agentsはfilesystem上に直接構築されたmemory layerのおかげで、sessionをまたいで学習できるようになった。agentsは、agentic tasksで既に使っているものと同じbashおよびcode executionの機能を活用する。
| 機能 | 詳細 |
|---|---|
| 共有可能なstores | 複数agents、異なるアクセス範囲(read-only / read-write) |
| 同時アクセス | 並列session間で上書きなし |
| 監査ログ | どのsession、どのagent、どのmemoryか |
| ロールバック | 任意の以前のversionへ |
| Export可能性 | memoriesをAPI経由で管理可能 |
顧客の結果が、その実際のインパクトを示している。
| 顧客 | 結果 |
|---|---|
| Rakuten | first-pass errors -97%、cost -27%、latency -34% |
| Wisedocs | 文書検証速度 +30% |
| Netflix | 手動更新なしでsession間のcontext継続 |
| Ando | 専用インフラなしのplatform memory |
Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.
🇯🇵 Claude Managed Agentsのメモリによって、継続学習を大規模に本番環境へ導入できます。私たちのagentsは各sessionから学びを抽出し、first-pass errorsを97%削減、costを27%削減し、latencyを34%削減しています。 — Yusuke Kaji, General Manager AI for Business, Rakuten
Claude Code : 品質post-mortemと2つの新バージョン
post-mortemと制限のリセット
4月23日 — Claude Codeチームは、先月報告された3件の品質問題についてpost-mortemを公開した。いずれもv2.1.116+で修正済み。利用制限はすべての加入者についてリセットされた。
Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.
🇯🇵 この1か月の間に、Claude Codeの品質が低下したと報告した方がいました。私たちは調査を行い、見つかった3つの問題についてpost-mortemを公開しました。いずれもv2.1.116+で修正済みで、すべての加入者のusage limitsをリセットしました。 — @ClaudeDevs
v2.1.117 と v2.1.118
| バージョン | 主な機能 |
|---|---|
| v2.1.118 | Visual Vimモード (v/V) の選択とoperator;/usage の統合(/cost と /stats を統合);/theme 内のカスタムテーマ;type: "mcp_tool" 経由でMCP toolsを呼び出すhooks;厳格な DISABLE_UPDATES;WSL経由のWindows managed settings継承 |
| v2.1.117 | Pro/MaxのOpus 4.6とSonnet 4.6で既定effortが high に変更(以前は medium);外部buildでsub-agent forkを有効化可能;glob/Grep が、より高速な検索のための組み込み bfs/ugrep に置換;Opus 4.7 session修正(1M contextが正しく計算);thinking無効時のBedrock+Opus 4.7修正 |
日常生活向けの新しいClaude connectors
4月23日 — Anthropicはconnectorsの対象を一般消費者向けアプリへ拡大した。2025年7月からは、業務ツール向けに200以上のconnectorsが利用可能だったが、今回の更新で日常的な15サービスが追加された。
| アプリケーション | カテゴリ |
|---|---|
| AllTrails | ハイキング |
| Audible | オーディオブック |
| Booking.com | 旅行 |
| Instacart | 食料品宅配 |
| Intuit Credit Karma | Finance |
| Intuit TurboTax | 税務 |
| Resy | レストラン予約 |
| Spotify | 音楽 |
| StubHub | チケット販売 |
| Taskrabbit | 家事代行 |
| Thumbtack | 地元の専門家 |
| TripAdvisor | 旅行 |
| Uber | 交通 |
| Uber Eats | 食事配達 |
| Viator | 観光アクティビティ |
Claudeは、会話のcontextに応じて関連するconnectorsを自動で提案するようになった。Freeを含む全プラン、web、desktop、mobileで利用可能(mobileはbeta)。有料掲載やsponsored responseはなく、あるappのデータがモデル学習に使われることもない。
GitHub Copilot — 3日間で7件の更新
GitHub Copilotは、4月22日から23日にかけてchangelogに7件を追加した。
pull request向けChat(3つの新機能)
4月23日 — Copilot Chatは、github.com/copilotまたはdiff上のCopilotボタンから利用できる、pull request向けの3つの機能を統合した(public preview)。
- PR理解 (pull request understanding):コメント、変更、commit、レビューをcontextとして統合
- PRレビュー:オンデマンドの構造化レビュー
- PR要約:変更点の簡潔な要約
🔗 Copilot Chat PR improvements
issueとprojectから操作できるagent session
4月23日 — cloud agentは、GitHubのissuesとproject boardsから直接操作できるようになった。issueヘッダーにsessionインジケーター、進捗用のサイドパネル、すべてのproject viewで既定有効のsessionsが提供される。
web上でのstack traceの構造化デバッグ
4月23日 — github.com上のCopilot Chatは、stack traceの解析を6つの構造化ステップで案内するようになった。何が失敗したか、なぜ失敗したか、root cause、codeから得られた証拠、confidence level、次の確認事項である。
VS CodeのBYOKが利用可能に(GA)
4月22日 — Bring Your Own Key(自分のAPI keyを持ち込む)が、VS CodeのCopilot BusinessおよびEnterpriseユーザー向けにgeneral availabilityとなった。Anthropic、Gemini、OpenAI、OpenRouter、Azureがサポートされ、OllamaとFoundry Local経由のローカルmodelも使える。課金は選択したproviderから直接行われ、Copilotのquota対象外だ。
Copilot CLI向けC++ Language Serverのpublic preview
4月22日 — Microsoft C++ Language Server(Visual Studio/VS CodeのIntelliSense engine)が、Copilot CLI向けにpublic previewとして利用可能になった。grepを繰り返す検索の代わりに、正確なsemantic data(symbol definitions、references、call hierarchies、types)を提供する。前提条件:Copilot CLI認証 + compile_commands.json。
Business self-serveの新規登録を停止
4月22日 — GitHubは、GitHub FreeおよびGitHub TeamプランにおけるCopilot Businessのself-serve新規登録を停止した。既存の顧客には影響はない。
API metricsの used_copilot_cloud_agent フィールド
4月23日 — 「coding agent」から「cloud agent」へのrebrandingに伴い、API metricsはユーザーレポート(1日および28日移動平均)に used_copilot_cloud_agent フィールドを追加した。旧フィールド used_copilot_coding_agent は2026年8月1日まで維持される。
Gemini CLI v0.39.0 と Ultra全加入者向けDeep Think
Gemini CLI v0.39.0
4月23日 — Googleは、安定版で「Latest」扱いの Gemini CLI v0.39.0 を公開した。注目点は、作業中のsessionでCLIが自動抽出したskillsを確認・検証するための新しい /memory inbox コマンドだ。
| 機能 | 説明 |
|---|---|
/memory inbox | 自動抽出されたskillsのレビュー |
統合された invoke_subagent | sub-agent toolを単一のinterfaceに再設計 |
| コンパクトなformatting | compactモードでの可読性向上 |
| Plan Mode — confirmations | skillsの有効化前に確認が必要 |
| 軽量起動 | より速い起動のための軽量parent process |
| JSONL streaming移行 | chat sessionのJSONL記録 |
追加されたkeyboard shortcut:Windows Terminalでの単語単位削除用の Ctrl+Backspace、Ctrl+Shift+G。
Ultra全加入者向けにDeep Thinkを開放
4月22日 — Googleは、Deep Thinkモード(深い推論、extended thinking)をGemini Ultraの全加入者に開放した。このモードは以前は限定アクセスだったが、現在はGeminiアプリのtoolsメニュー(webおよびmobile)から直接利用できる。
Kimi K2.6 : 300のサブエージェントとopen-weights benchmark
Agent Swarm — 300の並列サブエージェント
4月23日 — Moonshot AIは Kimi K2.6 Agent Swarm を発表した。これは、K2.5の100 agentsと1,500ステップに対し、1回の実行で4,000ステップ上に300のsub-agentを並列展開できるシステムだ。
| 能力 | K2.5 | K2.6 |
|---|---|---|
| 並列sub-agent | 100 | 300 |
| 1回の実行あたりのステップ数 | 1,500 | 4,000 |
| 出力の種類 | チャットテキスト | 100以上の実ファイル、10万語のレビュー、2万行のdataset |
sub-agentは、web検索、データ分析、coding、長文執筆、視覚生成といった異なる技能を組み合わせる。kimi.com/agent-swarmで利用可能。
benchmarks : open-weightsで第1位
4月23日 — Kimi K2.6は、2つのbenchmarkでopen-weights modelsの首位に到達した: - Design Arena : Claude Opus 4.7 と同等の性能帯
- MathArena open(Think モード): GLM 5.1 を上回る
SpaceXAI × Cursor と Grok Imagine
SpaceXAI × Cursor の提携
4月22日 — xAI/SpaceX の提携によって生まれた実体である SpaceXAI と Cursor は、「世界で最も高性能なコーディングおよびナレッジワーク用 AI」を作るための提携を発表。SpaceX はスーパーコンピュータ Colossus(100万台の H100 に相当)を提供し、Cursor は 2026 年中に 600 億ドルで同社を買収する権利、または提携のみの場合は 100 億ドルを支払う権利を与えます。
Grok Imagine — 共有可能なカスタムテンプレート
4月22日 — SuperGrok と Premium+ の購読者は、Grok Imagine 内でカスタムテンプレートを作成し、公開で共有できるようになりました。
NVIDIA × Google Cloud Next
4月22日 — Google Cloud Next(ラスベガス)で、NVIDIA と Google Cloud はエージェント型 AI インフラをめぐる複数の重要な進展を発表しました。
| 発表 | 詳細 |
|---|---|
| A5X インスタンス(Vera Rubin NVL72) | マルチサイトクラスタで最大 96 万 GPU の Rubin を搭載、token あたりのコストは 10 倍低く、メガワットあたりのスループットは 10 倍高い |
| Google Distributed Cloud 上の Gemini | Blackwell と Blackwell Ultra GPU 対応のプレビュー — データ主権に対応 |
| Confidential VMs Blackwell | パブリッククラウドにおける Blackwell の初の confidential computing 提供 |
| Nemotron 3 Super | Gemini Enterprise Agent Platform で利用可能 |
| NeMo RL API | 大規模な管理下での強化学習(Reinforcement Learning) |
Kling AI Video 3.0 — ネイティブ 4K モード
4月23日 — Kling AI は Video 3.0 シリーズで ネイティブ 4K モードを開始しました。4K 生成はワンクリックで行え、追加のアップスケーリング工程は不要です。人物、テキスト、スタイル、照明といった視覚的一貫性はネイティブ解像度で確保され、高品質な制作に対応します。企業向けには fal.ai 経由でも利用可能です。
同時に Kling AI は、クリエイターに新モードで制作した短編映画の応募を促す世界規模の 4K Short Film Creative Contest を開催しています。
ChatGPT for Clinicians と OpenAI Privacy Filter
ChatGPT for Clinicians + HealthBench Professional
4月22日 — OpenAI は、米国の認証済み医療従事者(医師、ナースプラクティショナー、医療助手、薬剤師)向けの無料版 ChatGPT for Clinicians を開始します。このサービスには、複雑な臨床質問向けの frontier モデルへのアクセス、繰り返しの多いワークフロー(紹介状、事前承認)のための skills、引用付きのリアルタイム臨床研究、継続教育単位(CME)の自動生成が含まれます。HIPAA 対応の処理は、契約によりオプションで利用可能です。
OpenAI はまた、実際の臨床タスクにおける AI を評価するオープン benchmark である HealthBench Professional も公開します(医師によって評価された 70 万件超の回答)。ChatGPT for Clinicians 内の GPT-5.4 は、web アクセスあり・時間無制限条件下で、この benchmark において人間の医師を上回ります。
OpenAI Privacy Filter
4月22日 — OpenAI は、テキスト内の個人を特定できる情報(Personally Identifiable Information, PII)を検出してマスクするための open-weight モデル Privacy Filter(Apache 2.0)を公開しました。モデルはローカルで動作し(サーバーへデータは送信されません)、128K token のコンテキストに対応し、PII-Masking-300k benchmark で F1 スコア 97.43% を達成しています。
| 特徴 | 値 |
|---|---|
| アーキテクチャ | 双方向 token 分類器(制約付き Viterbi デコーディング) |
| サイズ | 総パラメータ 15 億、アクティブ 5,000 万 |
| コンテキスト | 128,000 token |
| ライセンス | Apache 2.0(Hugging Face + GitHub) |
| F1 | 修正版 PII-Masking-300k で 97.43% |
カバーされる PII のカテゴリ: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret(パスワードと API keys)。
Perplexity と Cohere
Perplexity が Kimi K2.6 を統合
4月23日 — Moonshot AI の Kimi K2.6 が、Perplexity の Pro および Max の全購読者向けに利用可能になりました。
Cohere — vLLM で production-ready な W4A8
4月22日 — Cohere は、自社の W4A8 推論(重み 4 bit、activation 8 bit の量子化)を vLLM に統合したと発表しました。Hopper GPU で W4A16 と比較した結果は、最初の token までの時間(Time To First Token)が +58%、出力 token あたりの時間(Time Per Output Token)が +45% 改善。統合は、まず大規模な本番環境の MoE モデル Command A を対象にしています。
短報
Suno が音楽 App Store で 1 位
4月21日 — 音楽生成 AI プラットフォーム Suno が、App Store の音楽カテゴリで首位を獲得。CEO の Mikey Shulman は「音楽の未来は、誰もが創作を楽しめるものになる」と述べました。
Anthropic Economic Index Survey
4月22日 — Anthropic は、Anthropic Interviewer を通じて Claude ユーザーの無作為抽出サンプルに対して毎月実施する調査、Anthropic Economic Index Survey を開始します。目的は、AI の経済的影響に関する定性的データを収集することです。対象は、委任されたタスク、生産性向上、役割の変化などです。結果は今後の Anthropic Economic Index レポートに反映されます。
🔗 調査発表
Anthropic — 本番環境の MCP エージェント: 数字
4月22日 — Anthropic の技術記事は、本番環境エージェントにおける MCP の利点を示しています。MCP SDK の月間ダウンロード数は 3 億回を超え、tool search は tool 定義 token を 85% 削減し、programmatic tool calling は複雑な多段階ワークフローでの token 使用量を 37% 削減します。
OpenAI — Responses API の WebSockets: レイテンシ 40% 削減
4月22日 — OpenAI の回顧記事では、Responses API の WebSocket モードがエージェントループのレイテンシを 40% 削減する仕組みが説明されています。永続接続により、以前の応答状態のキャッシュがメモリ上に維持され、毎回の呼び出しで履歴全体を再処理する必要がなくなります。すでに本番導入済み: Codex、Vercel AI SDK、Cline(+39%)、Cursor(+30%)。
Perplexity Research — 検索増強モデルの訓練
4月22日 — Perplexity は、検索応答の品質を改善するための SFT + RL(Supervised Fine-Tuning + Reinforcement Learning)パイプラインに関する研究を公開しました。主な結果: 事後学習した Qwen モデルは、より低コストで GPT モデルと同等の事実性に到達します。
これが意味すること
2026年4月23日は、2つの収束する潮流を示しています。1つは、GPT-5.5 が、数か月にわたり Claude Opus 4.7 が優勢だった後、エージェント系 benchmark(Terminal-Bench、ARC-AGI-2、OSWorld)で OpenAI が再び首位を奪還したことを確認した点です。SWE-Bench Pro では差は依然として小さく、Anthropic が優位を保っています。これは、両研究所が同じ優先ユースケースに照準を合わせていることを示しています。
もう1つは、永続的なメモリを持つエージェント の時代への突入です。OpenAI Workspace Agents、Anthropic Managed Agents Memory、Kimi K2.6 Agent Swarm が、Slack 統合、filesystem ベース、サブエージェントの群れという異なるアプローチで同時に登場しましたが、目標は共通しています。すなわち、エージェントが常時監督なしで記憶し、学習し、行動することです。Rakuten の数字(エラー -97%、コスト -27%)は、その産業的インパクトを示す初期の指標となっています。
GitHub Copilot は、GitHub.com への深い統合(PR chat、issue からの agent sessions、構造化された stack traces)を進めつつ、BYOK を通じて外部にも開かれ続けています。BYOK VS Code の GA は、Copilot がモデルであると同時にインターフェースでもある、という立ち位置を示しています。
ソース
- GPT-5.5 — OpenAI
- OpenAI GPT-5.5 の Tweet
- Workspace Agents — OpenAI
- Workspace Agents の Tweet
- ChatGPT for Clinicians
- OpenAI Privacy Filter
- WebSockets API Responses — OpenAI
- Managed Agents Memory — Anthropic
- 日常生活向けコネクタ — Anthropic
- コネクタの Tweet — @claudeai
- Claude Code のポストモーテム — @ClaudeDevs
- @bcherny の Tweet
- CHANGELOG Claude Code
- MCP production agents — Anthropic
- Anthropic Economic Index Survey
- Copilot Chat PR の改善
- issue からの Copilot agent sessions
- Copilot の stack traces デバッグ
- Copilot BYOK VS Code GA
- Copilot C++ Language Server
- Copilot Business self-serve pause
- Copilot cloud agent metrics
- Gemini CLI v0.39.0
- Gemini Deep Think Ultra — @GeminiApp
- Kimi K2.6 Agent Swarm — @Kimi_Moonshot
- Kimi K2.6 Design Arena
- Kimi K2.6 MathArena
- SpaceXAI × Cursor — @SpaceX
- Grok Imagine templates — @imagine
- NVIDIA × Google Cloud Next
- Kling AI Video 3.0 Mode 4K
- Kling AI 4K Short Film Contest
- Perplexity Kimi K2.6
- Perplexity Research Search-Augmented LMs
- Cohere W4A8 vLLM
- Suno numéro 1 App Store
この文書は、モデル gpt-5.4-mini を使用して fr 版から ja 言語へ翻訳されました。翻訳プロセスの詳細については、https://gitlab.com/jls42/ai-powered-markdown-translator をご覧ください。