Suchen

Claude Opus 4.6 und GPT-5.3-Codex: Doppelstart, Gemini 3 Update

Doppelstart auf dem Gipfel: Anthropic veröffentlicht Claude Opus 4.6 mit 1M Token-Kontext und Agent Teams, während OpenAI mit GPT-5.3-Codex und einer Enterprise-Plattform antwortet. Google pusht Gemini 3 an allen Fronten, und GitHub erfüllt endlich eine 8 Jahre alte Anfrage.


Claude Opus 4.6: SOTA in Agentic Coding und 1M Kontext

5. Februar — Anthropic veröffentlicht Claude Opus 4.6, ein großes Update seines intelligentesten Modells. Das Modell macht Fortschritte in Planung, langen Sitzungen, Code-Review und bietet erstmals einen 1-Millionen-Token-Kontext in der Beta für ein Opus-Modell.

BenchmarkScoreDetail
Terminal-Bench 2.0SOTAHöchster Agentic Coding Score
Humanity’s Last ExamSOTAMultidisziplinäres Denken
GDPval-AA+144 Elo vs GPT-5.2Professionelle Arbeit (Finanzen, Recht)
BrowseCompSOTAKomplexe Informationsbeschaffung
MRCR v2 (8-needle 1M)76%vs 18.5% für Sonnet 4.5

API- und Produkt-Neuheiten

FeatureBeschreibung
Agent teamsMehrere Claude Code Agenten parallel (Research Preview)
Adaptive thinkingDas Modell wählt, wann tiefes Denken genutzt wird
Effort controls4 Stufen: low, medium, high (Standard), max
Context compactionAutomatische Kontext-Zusammenfassung für lange Sitzungen
128k output tokensLängere Ausgaben in einer einzigen Anfrage
Claude in PowerPointResearch Preview (Max, Team, Enterprise)

Preisgestaltung: Unverändert bei 5/5/25 pro Million Token (Input/Output). Premium-Preise ab 200k Token (10/10/37.50).

Verfügbarkeit: claude.ai, API (claude-opus-4-6) und alle großen Cloud-Plattformen.

Engineering Blogs: Infrastruktur-Rauschen und C-Compiler

Anthropic veröffentlicht am selben Tag zwei technische Artikel. Der erste quantifiziert das Infrastruktur-Rauschen in Agentic Coding Benchmarks: Auf Terminal-Bench 2.0 kann allein die Ressourcenkonfiguration Lücken von 6 Prozentpunkten zwischen Setups erzeugen. Der zweite dokumentiert den Bau eines C-Compilers in Rust durch 16 parallele Claude-Agenten: 100.000 Zeilen Code, fähig den Linux 6.9 Kernel auf x86, ARM und RISC-V zu kompilieren, in ~2.000 Claude Code Sitzungen für ~$20.000.

Opus 4.6 in GitHub Copilot

Am selben Tag wird Claude Opus 4.6 in GA in GitHub Copilot via Agent HQ verfügbar, nach der am Vortag angekündigten Public Preview.

🔗 Opus 4.6 Ankündigung | Infrastructure noise | Building a C compiler


GPT-5.3-Codex: Coding Frontier + Profi-Wissen

5. Februar — OpenAI veröffentlicht GPT-5.3-Codex, das die Coding-Leistung von GPT-5.2-Codex mit den Denkfähigkeiten von GPT-5.2 verschmilzt, alles 25% schneller.

BenchmarkScore
SWE-Bench Pro (Public)56.8%
Terminal-Bench 2.077.3%
OSWorld-Verified64.7%
GDPval (Siege oder Unentschieden)70.9%
Cybersecurity CTF77.6%
SWE-Lancer IC Diamond81.4%

GPT-5.3-Codex ist das erste Modell, das zu seiner eigenen Erstellung beigetragen hat: Das Team nutzte Vorabversionen, um das Training zu debuggen, das Deployment zu verwalten und Testergebnisse zu analysieren.

Jenseits von Code

Das Modell erstellt Präsentationen, Tabellenkalkulationen, Datenanalysen und bewältigt Produktivitätsaufgaben in einer Desktop-Umgebung (64.7% auf OSWorld-Verified).

Cybersicherheit: Hohe Leistungsfähigkeit

GPT-5.3-Codex ist das erste Modell, das im Rahmen von OpenAIs Preparedness-Framework als High Capability für Cybersicherheit eingestuft wurde, und das erste, das speziell darauf trainiert wurde, Software-Schwachstellen zu identifizieren.

🔗 GPT-5.3-Codex Blog | System Card


OpenAI: Frontier, MCP Apps, Sicherheit und Biotech

OpenAI Frontier: Enterprise Agent Plattform

5. Februar — OpenAI startet Frontier, eine Plattform zur Entwicklung, Bereitstellung und Verwaltung von KI-Agenten im Unternehmen. Agenten erhalten gemeinsamen geschäftlichen Kontext, Berechtigungen und lernen aus Erfahrung.

AspektDetail
Erste KundenHP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
KI-PartnerAbridge, Clay, Ambience, Decagon, Harvey, Sierra
AnsatzForward Deployed Engineers (FDE) in Teams integriert
StandardsOffene Standards, kompatibel mit bestehenden Systemen

ChatGPT: MCP Apps in Beta

5. Februar — Die MCP Apps kommen in die Beta in ChatGPT Business, Enterprise und Edu. Neue Partner-Konnektoren: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte und andere. Organisationen können benutzerdefinierte MCP-Apps über den Entwicklermodus erstellen.

Trusted Access for Cyber

5. Februar — OpenAI startet Trusted Access for Cyber, ein vertrauensbasiertes Zugangspilotprogramm für fortgeschrittene Cyber-Fähigkeiten. Nutzer können ihre Identität unter chatgpt.com/cyber verifizieren. 10 Millionen Dollar an API-Credits werden über das Cybersecurity Grant Program für Cyberabwehr bereitgestellt.

GPT-5 senkt Kosten für Proteinsynthese

5. Februar — In Partnerschaft mit Ginkgo Bioworks verbindet OpenAI GPT-5 mit einem Roboterlabor, um die zellfreie Proteinsynthese (CFPS) zu optimieren. Ergebnis: 40% Senkung der Produktionskosten und 57% Verbesserung bei den Reagenzienkosten, nach 36.000 getesteten Zusammensetzungen auf 580 automatisierten Platten in sechs Experimentierrunden.

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 Proteine


Google: Gemini 3, Super Bowl und NotebookLM

Gemini 3: Updates und Super Bowl

5.-6. Februar — Google pusht Gemini 3 an allen Fronten. Gemini 3 Flash, kürzlich gestartet, bietet Pro-Level-Denken bei Flash-Geschwindigkeit: 90.4% auf GPQA Diamond und 33.7% auf Humanity’s Last Exam (ohne Tools). Gemini 3 wird das Standardmodell für AI Overviews in der Google-Suche.

Google bereitet auch einen 60-sekündigen Gemini-Spot für den Super Bowl LX (8. Februar) vor — der Spot “New Home” zeigt ein Kind, das mit Hilfe von Gemini einen Umzug vorbereitet, und illustriert die Suchfunktionen in Google Photos und die Bildgenerierung.

NotebookLM: Infographics und Slide Decks

NotebookLM, jetzt auf Gemini 3 basierend, rollt Infographics und Slide Decks für Free- und Pro-Nutzer aus. Slide Decks sind bereits das zweitbeliebteste Output-Studio. Ultra-Nutzer können das Wasserzeichen entfernen.

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics


GitHub: Angepinnte Kommentare in Issues

5. Februar — GitHub führt angepinnte Kommentare in Issues ein. Es ist jetzt möglich, einen Kommentar über das Kontextmenü oben in einem Issue anzupinnen. Ein seit 2017 gefordertes Feature, um Entscheidungen, Updates und wichtige nächste Schritte in langen Threads hervorzuheben.

🔗 Changelog


Was das bedeutet

Der 5. Februar 2026 wird als ein markanter Tag in Erinnerung bleiben: Anthropic und OpenAI starten gleichzeitig ihre fortschrittlichsten Coding-Modelle. Claude Opus 4.6 dominiert Benchmarks für professionelle Arbeit und Informationsbeschaffung, während GPT-5.3-Codex im Terminal-Coding und der Computernutzung glänzt. Beide Modelle beanspruchen SOTA (State Of The Art) auf Terminal-Bench 2.0 — Anthropics Artikel über Infrastruktur-Rauschen ergibt absolut Sinn.

Jenseits der Modelle verschärft sich der Plattformkampf: OpenAI Frontier greift das Enterprise-Segment mit bei Oracle und Uber eingesetzten Agenten an, während Anthropic auf das Entwickler-Ökosystem setzt (GitHub, Xcode, Claude Code). Google rückt an allen Fronten mit Gemini 3 in der Suche, Chrome und NotebookLM vor und bereitet den Super Bowl vor, um Gemini im Mainstream zu verankern.


Quellen