検索

Claude Opus 4.6とGPT-5.3-Codex:ダブルローンチ、Gemini 3アップデート

Claude Opus 4.6とGPT-5.3-Codex:ダブルローンチ、Gemini 3アップデート

頂上でのダブルローンチ:Anthropicは1Mトークンコンテキストとエージェントチームを備えたClaude Opus 4.6をリリースし、OpenAIはGPT-5.3-Codexとエンタープライズプラットフォームで応戦します。GoogleはGemini 3を全方位で推進し、GitHubはついに8年前からの要望に応えました。


Claude Opus 4.6:Agentic codingでSOTA、1Mコンテキスト

2月5日 — Anthropicは、最もインテリジェントなモデルのメジャーアップデートであるClaude Opus 4.6をローンチしました。このモデルは計画、長時間セッション、コードレビューにおいて進化し、Opusモデルとして初めてベータ版で100万トークンのコンテキストを提供します。

ベンチマークスコア詳細
Terminal-Bench 2.0SOTAAgentic codingで最高スコア
Humanity’s Last ExamSOTA学際的推論
GDPval-AA+144 Elo vs GPT-5.2専門的業務(金融、法務)
BrowseCompSOTA複雑な情報検索
MRCR v2 (8-needle 1M)76%Sonnet 4.5の18.5%と比較

APIと製品の新機能

機能説明
Agent teams複数のClaude Codeエージェントを並列実行(リサーチプレビュー)
Adaptive thinkingモデルがいつ深い思考を使用するかを選択
Effort controls4つのレベル:低、中、高(デフォルト)、最大
Context compaction長時間セッション向けの自動コンテキスト要約
128k output tokens1回のリクエストでより長い出力
Claude in PowerPointリサーチプレビュー(Max, Team, Enterprise)

価格: 100万トークンあたり5/5/25(入力/出力)で変更なし。200kトークンを超えるとプレミアム価格(10/10/37.50)。

利用可能: claude.ai、API(claude-opus-4-6)、およびすべての主要クラウドプラットフォーム。

エンジニアリングブログ:インフラノイズとCコンパイラ

Anthropicは同日、2つの技術記事を公開しました。1つ目はagentic codingベンチマークにおけるインフラノイズを定量化したもので、Terminal-Bench 2.0ではリソース構成だけでセットアップ間に6ポイントの差が生じる可能性があります。2つ目は、16のClaudeエージェントが並列でRustによるCコンパイラを構築した記録です。10万行のコードで、x86、ARM、RISC-V上でLinux 6.9カーネルをコンパイル可能であり、約2,000回のClaude Codeセッション、約20,000ドルで完了しました。

GitHub CopilotでのOpus 4.6

同日、前日に発表されたパブリックプレビューを経て、Claude Opus 4.6がAgent HQを通じてGitHub CopilotでGA(一般提供)となりました。

🔗 Opus 4.6 アナウンス | インフラノイズ | Cコンパイラの構築


GPT-5.3-Codex:コーディングの最前線 + プロの知識

2月5日 — OpenAIは、GPT-5.2-Codexのコーディング性能とGPT-5.2の推論能力を融合させたGPT-5.3-Codexをローンチしました。すべてが25%高速になっています。

ベンチマークスコア
SWE-Bench Pro (Public)56.8%
Terminal-Bench 2.077.3%
OSWorld-Verified64.7%
GDPval (wins or ties)70.9%
Cybersecurity CTF77.6%
SWE-Lancer IC Diamond81.4%

GPT-5.3-Codexは、自らの作成に貢献した最初のモデルです。チームは、トレーニングのデバッグ、デプロイメントの管理、テスト結果の分析に予備バージョンを使用しました。

コードを超えて

このモデルは、プレゼンテーション、スプレッドシート、データ分析を作成し、デスクトップ環境で生産性タスクを処理します(OSWorld-Verifiedで64.7%)。

サイバーセキュリティ:高い能力

GPT-5.3-Codexは、OpenAIの準備フレームワークの下でサイバーセキュリティに関して**高い能力(High Capability)**と評価された最初のモデルであり、ソフトウェアの脆弱性を特定するために特別にトレーニングされた最初のモデルです。

🔗 GPT-5.3-Codex ブログ | System Card


OpenAI:Frontier、MCP Apps、セキュリティ、バイオテック

OpenAI Frontier:エンタープライズエージェントプラットフォーム

2月5日 — OpenAIは、企業内でAIエージェントを開発、展開、管理するためのプラットフォームFrontierを立ち上げました。エージェントは共有されたビジネスコンテキストと権限を受け取り、経験から学習します。

側面詳細
最初の顧客HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
AIパートナーAbridge, Clay, Ambience, Decagon, Harvey, Sierra
アプローチチームに統合されたForward Deployed Engineers (FDE)
標準オープン標準、既存システムと互換性あり

ChatGPT:MCP Appsがベータ版に

2月5日MCP AppsがChatGPT Business、Enterprise、Eduでベータ版になりました。Amplitude、Fireflies、Vercel、Monday.com、Stripe、Hex、Egnyteなどの新しいパートナーコネクタが登場しました。組織は開発者モードを通じてカスタムMCPアプリを構築できます。

Trusted Access for Cyber

2月5日 — OpenAIは、高度なサイバー機能のための信頼ベースのアクセスパイロットプログラムTrusted Access for Cyberを立ち上げました。ユーザーはchatgpt.com/cyberで身元を確認できます。Cybersecurity Grant Programを通じて、1000万ドルのAPIクレジットがサイバー防衛に割り当てられます。

GPT-5がタンパク質合成コストを削減

2月5日Ginkgo Bioworksとの提携により、OpenAIはGPT-5をロボットラボに接続し、無細胞タンパク質合成(CFPS)を最適化しました。結果:6回の実験ラウンドで580枚の自動化プレート上で36,000の組成をテストした後、生産コストを40%削減し、試薬コストを57%改善しました。

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 タンパク質


Google:Gemini 3、スーパーボウル、NotebookLM

Gemini 3:アップデートとスーパーボウル

2月5〜6日 — GoogleはGemini 3を全方位で推進しています。最近ローンチされたGemini 3 Flashは、FlashのスピードでProレベルの推論を提供します(GPQA Diamondで90.4%、Humanity’s Last Examで33.7%(ツールなし))。Gemini 3は、Google検索のAI Overviewsのデフォルトモデルになります。

Googleはまた、第60回スーパーボウル(2月8日)に向けて60秒のGemini広告を準備しています。「New Home」というスポットは、Geminiの助けを借りて引っ越しの準備をする子供を描き、Googleフォトでの検索機能と画像生成を説明しています。

NotebookLM:インフォグラフィックとスライドデッキ

Gemini 3上に構築されたNotebookLMは、FreeおよびProユーザー向けにインフォグラフィックとスライドデッキを展開します。スライドデッキはすでに2番目に人気のある出力スタジオです。Ultraユーザーは透かしを削除できます。

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics


GitHub:Issuesの固定コメント

2月5日 — GitHubはIssuesで**固定コメント(pinned comments)**を立ち上げました。コンテキストメニューからコメントをIssueの先頭に固定できるようになりました。長いスレッドで決定事項、更新情報、重要な次のステップを強調するために、2017年から要望されていた機能です。

🔗 変更ログ


これが意味すること

2026年2月5日は記憶に残る日となるでしょう。AnthropicとOpenAIが同時に最も高度なコーディングモデルをローンチしました。Claude Opus 4.6は専門的業務と情報検索のベンチマークを支配し、GPT-5.3-Codexはターミナルコーディングとコンピュータ操作に優れています。両モデルともTerminal-Bench 2.0でSOTA(State Of The Art)を主張しており、インフラノイズに関するAnthropicの記事は完全に理にかなっています。

モデルを超えて、プラットフォームの戦いは激化しています。OpenAI FrontierはOracleやUberに展開されたエージェントでエンタープライズを攻撃し、Anthropicは開発者エコシステム(GitHub、Xcode、Claude Code)に賭けています。Googleは検索、Chrome、NotebookLMでGemini 3を全方位で進め、Geminiをメインストリームに定着させるためにスーパーボウルの準備を進めています。


ソース