頂上でのダブルローンチ:Anthropicは1Mトークンコンテキストとエージェントチームを備えたClaude Opus 4.6をリリースし、OpenAIはGPT-5.3-Codexとエンタープライズプラットフォームで応戦します。GoogleはGemini 3を全方位で推進し、GitHubはついに8年前からの要望に応えました。
Claude Opus 4.6:Agentic codingでSOTA、1Mコンテキスト
2月5日 — Anthropicは、最もインテリジェントなモデルのメジャーアップデートであるClaude Opus 4.6をローンチしました。このモデルは計画、長時間セッション、コードレビューにおいて進化し、Opusモデルとして初めてベータ版で100万トークンのコンテキストを提供します。
| ベンチマーク | スコア | 詳細 |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | Agentic codingで最高スコア |
| Humanity’s Last Exam | SOTA | 学際的推論 |
| GDPval-AA | +144 Elo vs GPT-5.2 | 専門的業務(金融、法務) |
| BrowseComp | SOTA | 複雑な情報検索 |
| MRCR v2 (8-needle 1M) | 76% | Sonnet 4.5の18.5%と比較 |
APIと製品の新機能
| 機能 | 説明 |
|---|---|
| Agent teams | 複数のClaude Codeエージェントを並列実行(リサーチプレビュー) |
| Adaptive thinking | モデルがいつ深い思考を使用するかを選択 |
| Effort controls | 4つのレベル:低、中、高(デフォルト)、最大 |
| Context compaction | 長時間セッション向けの自動コンテキスト要約 |
| 128k output tokens | 1回のリクエストでより長い出力 |
| Claude in PowerPoint | リサーチプレビュー(Max, Team, Enterprise) |
価格: 100万トークンあたり25(入力/出力)で変更なし。200kトークンを超えるとプレミアム価格(37.50)。
利用可能: claude.ai、API(claude-opus-4-6)、およびすべての主要クラウドプラットフォーム。
エンジニアリングブログ:インフラノイズとCコンパイラ
Anthropicは同日、2つの技術記事を公開しました。1つ目はagentic codingベンチマークにおけるインフラノイズを定量化したもので、Terminal-Bench 2.0ではリソース構成だけでセットアップ間に6ポイントの差が生じる可能性があります。2つ目は、16のClaudeエージェントが並列でRustによるCコンパイラを構築した記録です。10万行のコードで、x86、ARM、RISC-V上でLinux 6.9カーネルをコンパイル可能であり、約2,000回のClaude Codeセッション、約20,000ドルで完了しました。
GitHub CopilotでのOpus 4.6
同日、前日に発表されたパブリックプレビューを経て、Claude Opus 4.6がAgent HQを通じてGitHub CopilotでGA(一般提供)となりました。
🔗 Opus 4.6 アナウンス | インフラノイズ | Cコンパイラの構築
GPT-5.3-Codex:コーディングの最前線 + プロの知識
2月5日 — OpenAIは、GPT-5.2-Codexのコーディング性能とGPT-5.2の推論能力を融合させたGPT-5.3-Codexをローンチしました。すべてが25%高速になっています。
| ベンチマーク | スコア |
|---|---|
| SWE-Bench Pro (Public) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (wins or ties) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codexは、自らの作成に貢献した最初のモデルです。チームは、トレーニングのデバッグ、デプロイメントの管理、テスト結果の分析に予備バージョンを使用しました。
コードを超えて
このモデルは、プレゼンテーション、スプレッドシート、データ分析を作成し、デスクトップ環境で生産性タスクを処理します(OSWorld-Verifiedで64.7%)。
サイバーセキュリティ:高い能力
GPT-5.3-Codexは、OpenAIの準備フレームワークの下でサイバーセキュリティに関して**高い能力(High Capability)**と評価された最初のモデルであり、ソフトウェアの脆弱性を特定するために特別にトレーニングされた最初のモデルです。
🔗 GPT-5.3-Codex ブログ | System Card
OpenAI:Frontier、MCP Apps、セキュリティ、バイオテック
OpenAI Frontier:エンタープライズエージェントプラットフォーム
2月5日 — OpenAIは、企業内でAIエージェントを開発、展開、管理するためのプラットフォームFrontierを立ち上げました。エージェントは共有されたビジネスコンテキストと権限を受け取り、経験から学習します。
| 側面 | 詳細 |
|---|---|
| 最初の顧客 | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| AIパートナー | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| アプローチ | チームに統合されたForward Deployed Engineers (FDE) |
| 標準 | オープン標準、既存システムと互換性あり |
ChatGPT:MCP Appsがベータ版に
2月5日 — MCP AppsがChatGPT Business、Enterprise、Eduでベータ版になりました。Amplitude、Fireflies、Vercel、Monday.com、Stripe、Hex、Egnyteなどの新しいパートナーコネクタが登場しました。組織は開発者モードを通じてカスタムMCPアプリを構築できます。
Trusted Access for Cyber
2月5日 — OpenAIは、高度なサイバー機能のための信頼ベースのアクセスパイロットプログラムTrusted Access for Cyberを立ち上げました。ユーザーはchatgpt.com/cyberで身元を確認できます。Cybersecurity Grant Programを通じて、1000万ドルのAPIクレジットがサイバー防衛に割り当てられます。
GPT-5がタンパク質合成コストを削減
2月5日 — Ginkgo Bioworksとの提携により、OpenAIはGPT-5をロボットラボに接続し、無細胞タンパク質合成(CFPS)を最適化しました。結果:6回の実験ラウンドで580枚の自動化プレート上で36,000の組成をテストした後、生産コストを40%削減し、試薬コストを57%改善しました。
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 タンパク質
Google:Gemini 3、スーパーボウル、NotebookLM
Gemini 3:アップデートとスーパーボウル
2月5〜6日 — GoogleはGemini 3を全方位で推進しています。最近ローンチされたGemini 3 Flashは、FlashのスピードでProレベルの推論を提供します(GPQA Diamondで90.4%、Humanity’s Last Examで33.7%(ツールなし))。Gemini 3は、Google検索のAI Overviewsのデフォルトモデルになります。
Googleはまた、第60回スーパーボウル(2月8日)に向けて60秒のGemini広告を準備しています。「New Home」というスポットは、Geminiの助けを借りて引っ越しの準備をする子供を描き、Googleフォトでの検索機能と画像生成を説明しています。
NotebookLM:インフォグラフィックとスライドデッキ
Gemini 3上に構築されたNotebookLMは、FreeおよびProユーザー向けにインフォグラフィックとスライドデッキを展開します。スライドデッキはすでに2番目に人気のある出力スタジオです。Ultraユーザーは透かしを削除できます。
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub:Issuesの固定コメント
2月5日 — GitHubはIssuesで**固定コメント(pinned comments)**を立ち上げました。コンテキストメニューからコメントをIssueの先頭に固定できるようになりました。長いスレッドで決定事項、更新情報、重要な次のステップを強調するために、2017年から要望されていた機能です。
🔗 変更ログ
これが意味すること
2026年2月5日は記憶に残る日となるでしょう。AnthropicとOpenAIが同時に最も高度なコーディングモデルをローンチしました。Claude Opus 4.6は専門的業務と情報検索のベンチマークを支配し、GPT-5.3-Codexはターミナルコーディングとコンピュータ操作に優れています。両モデルともTerminal-Bench 2.0でSOTA(State Of The Art)を主張しており、インフラノイズに関するAnthropicの記事は完全に理にかなっています。
モデルを超えて、プラットフォームの戦いは激化しています。OpenAI FrontierはOracleやUberに展開されたエージェントでエンタープライズを攻撃し、Anthropicは開発者エコシステム(GitHub、Xcode、Claude Code)に賭けています。Googleは検索、Chrome、NotebookLMでGemini 3を全方位で進め、Geminiをメインストリームに定着させるためにスーパーボウルの準備を進めています。
ソース
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues