Claude Opus 4.6 en GPT-5.3-Codex: Dubbele lancering, Gemini 3 update

Dubbele lancering op de top: Anthropic brengt Claude Opus 4.6 uit met 1M token context en agent teams, terwijl OpenAI reageert met GPT-5.3-Codex en een enterprise platform. Google pusht Gemini 3 op alle fronten, en GitHub beantwoordt eindelijk een 8 jaar oud verzoek.

Claude Opus 4.6: SOTA in agentic coding en 1M context

5 februari — Anthropic lanceert Claude Opus 4.6, een grote update van zijn slimste model. Het model gaat vooruit in planning, lange sessies, code review, en biedt voor het eerst een 1 miljoen token context in bèta voor een Opus-model.

Benchmark	Score	Detail
Terminal-Bench 2.0	SOTA	Hoogste agentic coding score
Humanity’s Last Exam	SOTA	Multidisciplinair redeneren
GDPval-AA	+144 Elo vs GPT-5.2	Professioneel werk (financiën, juridisch)
BrowseComp	SOTA	Complex informatie ophalen
MRCR v2 (8-needle 1M)	76%	vs 18.5% voor Sonnet 4.5

API en product nieuwigheden

Functionaliteit	Beschrijving
Agent teams	Meerdere Claude Code agents parallel (research preview)
Adaptive thinking	Het model kiest wanneer diep nadenken te gebruiken
Effort controls	4 niveaus: laag, gemiddeld, hoog (standaard), max
Context compaction	Automatische contextsamenvatting voor lange sessies
128k output tokens	Langere output in één verzoek
Claude in PowerPoint	Research preview (Max, Team, Enterprise)

Prijzen: Ongewijzigd op $5/$ 25 per miljoen tokens (input/output). Premium prijzen boven 200k tokens ( $10/$ 37.50).

Beschikbaarheid: claude.ai, API (claude-opus-4-6), en alle grote cloudplatforms.

Engineering blogs: Infrastructuurruis en C-compiler

Anthropic publiceert twee technische artikelen op dezelfde dag. Het eerste kwantificeert infrastructuurruis in agentic coding benchmarks: op Terminal-Bench 2.0 kan alleen al de resourceconfiguratie gaten van 6 procentpunt creëren tussen setups. Het tweede documenteert de bouw van een C-compiler in Rust door 16 Claude-agents in parallel: 100.000 regels code, in staat om de Linux 6.9 kernel te compileren op x86, ARM en RISC-V, in ~2.000 Claude Code sessies voor ~$20.000.

Opus 4.6 in GitHub Copilot

Dezelfde dag wordt Claude Opus 4.6 beschikbaar in GA in GitHub Copilot via Agent HQ, na de openbare preview die de dag ervoor werd aangekondigd.

🔗 Opus 4.6 Aankondiging | Infrastructuurruis | Een C-compiler bouwen

GPT-5.3-Codex: coding frontier + pro kennis

5 februari — OpenAI lanceert GPT-5.3-Codex, dat de coding prestaties van GPT-5.2-Codex samenvoegt met de redeneercapaciteiten van GPT-5.2, alles 25% sneller.

Benchmark	Score
SWE-Bench Pro (Publiek)	56.8%
Terminal-Bench 2.0	77.3%
OSWorld-Verified	64.7%
GDPval (winsten of gelijke spelen)	70.9%
Cybersecurity CTF	77.6%
SWE-Lancer IC Diamond	81.4%

GPT-5.3-Codex is het eerste model dat heeft bijgedragen aan zijn eigen creatie: het team gebruikte voorlopige versies om de training te debuggen, de implementatie te beheren en testresultaten te analyseren.

Verder dan code

Het model produceert presentaties, spreadsheets, data-analyse en handelt productiviteitstaken af in een desktopomgeving (64.7% op OSWorld-Verified).

Cybersecurity: hoge capaciteit

GPT-5.3-Codex is het eerste model dat als hoge capaciteit is beoordeeld voor cybersecurity onder OpenAI’s preparedness framework, en het eerste dat specifiek is getraind om softwarekwetsbaarheden te identificeren.

🔗 GPT-5.3-Codex Blog | System Card

OpenAI: Frontier, MCP Apps, beveiliging en biotech

OpenAI Frontier: enterprise agent platform

5 februari — OpenAI lanceert Frontier, een platform om AI-agents in de onderneming te ontwikkelen, implementeren en beheren. Agenten krijgen een gedeelde bedrijfscontext, rechten en leren door ervaring.

Aspect	Detail
Eerste klanten	HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
AI Partners	Abridge, Clay, Ambience, Decagon, Harvey, Sierra
Aanpak	Forward Deployed Engineers (FDE) geïntegreerd in teams
Standaarden	Open standaarden, compatibel met bestaande systemen

ChatGPT: MCP Apps in bèta

5 februari — De MCP Apps komen in bèta in ChatGPT Business, Enterprise en Edu. Nieuwe partnerconnectoren: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte en anderen. Organisaties kunnen aangepaste MCP-apps bouwen via de ontwikkelaarsmodus.

Trusted Access for Cyber

5 februari — OpenAI lanceert Trusted Access for Cyber, een op vertrouwen gebaseerd toegangspilotprogramma voor geavanceerde cybercapaciteiten. Gebruikers kunnen hun identiteit verifiëren op chatgpt.com/cyber. 10 miljoen dollar aan API-credits wordt toegewezen aan cyberverdediging via het Cybersecurity Grant Program.

GPT-5 verlaagt kosten eiwitsynthese

5 februari — In samenwerking met Ginkgo Bioworks verbindt OpenAI GPT-5 met een gerobotiseerd lab om celvrije eiwitsynthese (CFPS) te optimaliseren. Resultaat: 40% verlaging van de productiekosten en 57% verbetering in reagenskosten, na 36.000 geteste samenstellingen op 580 geautomatiseerde platen in zes experimenteerrondes.

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 eiwitten

Google: Gemini 3, Super Bowl en NotebookLM

Gemini 3: updates en Super Bowl

5-6 februari — Google pusht Gemini 3 op alle fronten. Gemini 3 Flash, onlangs gelanceerd, biedt redeneren op Pro-niveau met Flash-snelheid: 90.4% op GPQA Diamond en 33.7% op Humanity’s Last Exam (zonder tools). Gemini 3 wordt het standaardmodel voor AI Overviews in Google Search.

Google bereidt ook een 60 seconden durende Gemini-advertentie voor de Super Bowl LX (8 februari) voor — de “New Home” spot toont een kind dat zich voorbereidt op een verhuizing met behulp van Gemini, en illustreert zoekmogelijkheden in Google Photos en beeldgeneratie.

NotebookLM: Infographics en Slide Decks

NotebookLM, nu gebouwd op Gemini 3, rolt Infographics en Slide Decks uit voor Free en Pro gebruikers. Slide Decks zijn al de op één na populairste output studio. Ultra-gebruikers kunnen het watermerk verwijderen.

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics

GitHub: vastgezette reacties op Issues

5 februari — GitHub lanceert vastgezette reacties op Issues. Het is nu mogelijk om een reactie bovenaan een issue vast te pinnen vanuit het contextmenu. Een functie waar sinds 2017 om gevraagd wordt om beslissingen, updates en belangrijke vervolgstappen in lange threads te markeren.

🔗 Changelog

Wat dit betekent

5 februari 2026 zal de geschiedenis ingaan als een gedenkwaardige dag: Anthropic en OpenAI lanceren tegelijkertijd hun meest geavanceerde codingmodellen. Claude Opus 4.6 domineert benchmarks voor professioneel werk en informatie ophalen, terwijl GPT-5.3-Codex uitblinkt in terminal coding en computergebruik. Beide modellen claimen SOTA (State Of The Art) op Terminal-Bench 2.0 — het artikel van Anthropic over infrastructuurruis is volkomen logisch.

Naast de modellen intensiveert de platformstrijd: OpenAI Frontier valt de enterprise aan met agents die worden ingezet bij Oracle en Uber, terwijl Anthropic inzet op het ontwikkelaarsecosysteem (GitHub, Xcode, Claude Code). Google rukt op alle fronten op met Gemini 3 in Search, Chrome en NotebookLM, en bereidt de Super Bowl voor om Gemini bij het grote publiek te verankeren.