Double lancement au sommet : Anthropic sort Claude Opus 4.6 avec contexte 1M tokens et agent teams, pendant qu’OpenAI répond avec GPT-5.3-Codex et une plateforme enterprise. Google pousse Gemini 3 sur tous les fronts, et GitHub répond enfin à une demande vieille de 8 ans.
Claude Opus 4.6 : SOTA en agentic coding et contexte 1M
5 février — Anthropic lance Claude Opus 4.6, une mise à jour majeure de son modèle le plus intelligent. Le modèle progresse en planification, en sessions longues, en revue de code, et propose pour la première fois un contexte de 1 million de tokens en bêta pour un modèle Opus.
| Benchmark | Score | Détail |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | Plus haut score agentic coding |
| Humanity’s Last Exam | SOTA | Raisonnement multidisciplinaire |
| GDPval-AA | +144 Elo vs GPT-5.2 | Travail professionnel (finance, juridique) |
| BrowseComp | SOTA | Recherche d’information complexe |
| MRCR v2 (8-needle 1M) | 76% | vs 18.5% pour Sonnet 4.5 |
Nouveautés API et produit
| Fonctionnalité | Description |
|---|---|
| Agent teams | Plusieurs agents Claude Code en parallèle (research preview) |
| Adaptive thinking | Le modèle choisit quand utiliser la réflexion approfondie |
| Effort controls | 4 niveaux : low, medium, high (défaut), max |
| Context compaction | Résumé automatique du contexte pour sessions longues |
| 128k output tokens | Sorties plus longues en une seule requête |
| Claude in PowerPoint | Research preview (Max, Team, Enterprise) |
Tarification : inchangée à 25 par million de tokens (input/output). Premium pricing au-delà de 200k tokens (37.50).
Disponibilité : claude.ai, API (claude-opus-4-6), et toutes les plateformes cloud majeures.
Engineering blogs : bruit d’infrastructure et compilateur C
Anthropic publie deux articles techniques le même jour. Le premier quantifie le bruit d’infrastructure dans les benchmarks de coding agentic : sur Terminal-Bench 2.0, la configuration des ressources seule peut créer des écarts de 6 points de pourcentage entre setups. Le second documente la construction d’un compilateur C en Rust par 16 agents Claude en parallèle : 100 000 lignes de code, capable de compiler le noyau Linux 6.9 sur x86, ARM et RISC-V, en ~2 000 sessions Claude Code pour ~$20 000.
Opus 4.6 dans GitHub Copilot
Le même jour, Claude Opus 4.6 devient disponible en GA dans GitHub Copilot via Agent HQ, après la preview publique annoncée la veille.
🔗 Annonce Opus 4.6 | Infrastructure noise | Building a C compiler
GPT-5.3-Codex : coding frontier + connaissances pro
5 février — OpenAI lance GPT-5.3-Codex, qui fusionne les performances de coding de GPT-5.2-Codex avec les capacités de raisonnement de GPT-5.2, le tout 25% plus rapide.
| Benchmark | Score |
|---|---|
| SWE-Bench Pro (Public) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (wins or ties) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex est le premier modèle à avoir contribué à sa propre création : l’équipe a utilisé des versions préliminaires pour déboguer l’entraînement, gérer le déploiement et analyser les résultats de tests.
Au-delà du code
Le modèle produit des présentations, des feuilles de calcul, de l’analyse de données et gère des tâches de productivité dans un environnement de bureau (64.7% sur OSWorld-Verified).
Cybersécurité : haute capacité
GPT-5.3-Codex est le premier modèle classé haute capacité pour la cybersécurité dans le cadre de préparation d’OpenAI, et le premier spécifiquement entraîné à identifier des vulnérabilités logicielles.
🔗 Blog GPT-5.3-Codex | System Card
OpenAI : Frontier, MCP Apps, sécurité et biotech
OpenAI Frontier : plateforme agents enterprise
5 février — OpenAI lance Frontier, une plateforme pour développer, déployer et gérer des agents IA en entreprise. Les agents reçoivent un contexte métier partagé, des autorisations, et apprennent par l’expérience.
| Aspect | Détail |
|---|---|
| Premiers clients | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| Partenaires IA | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| Approche | Forward Deployed Engineers (FDE) intégrés aux équipes |
| Standards | Normes ouvertes, compatible systèmes existants |
ChatGPT : MCP Apps en bêta
5 février — Les MCP Apps arrivent en bêta dans ChatGPT Business, Enterprise et Edu. De nouveaux connecteurs partenaires : Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte et d’autres. Les organisations peuvent construire des apps MCP personnalisées via le mode développeur.
Trusted Access for Cyber
5 février — OpenAI lance Trusted Access for Cyber, un programme pilote d’accès basé sur la confiance pour les capacités cyber avancées. Les utilisateurs peuvent vérifier leur identité sur chatgpt.com/cyber. 10 millions de dollars de crédits API sont alloués à la cyberdéfense via le Cybersecurity Grant Program.
GPT-5 réduit le coût de synthèse protéique
5 février — En partenariat avec Ginkgo Bioworks, OpenAI connecte GPT-5 à un laboratoire robotisé pour optimiser la synthèse protéique cell-free (CFPS). Résultat : 40% de réduction du coût de production et 57% d’amélioration sur le coût des réactifs, après 36 000 compositions testées sur 580 plaques automatisées en six rounds d’expérimentation.
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 protéines
Google : Gemini 3, Super Bowl et NotebookLM
Gemini 3 : mises à jour et Super Bowl
5-6 février — Google pousse Gemini 3 sur tous les fronts. Gemini 3 Flash, lancé récemment, offre un raisonnement de niveau Pro à la vitesse Flash : 90.4% sur GPQA Diamond et 33.7% sur Humanity’s Last Exam (sans outils). Gemini 3 devient le modèle par défaut pour les AI Overviews dans Google Search.
Google prépare également une pub Gemini de 60 secondes pour le Super Bowl LX (8 février) — le spot “New Home” montre un enfant préparant un déménagement avec l’aide de Gemini, illustrant les capacités de recherche dans Google Photos et de génération d’images.
NotebookLM : Infographics et Slide Decks
NotebookLM, désormais construit sur Gemini 3, déploie les Infographics et Slide Decks pour les utilisateurs Free et Pro. Les Slide Decks sont déjà le deuxième output studio le plus populaire. Les utilisateurs Ultra peuvent retirer le watermark.
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub : commentaires épinglés sur les Issues
5 février — GitHub lance les commentaires épinglés sur les Issues. Il est désormais possible d’épingler un commentaire en haut d’une issue depuis le menu contextuel. Une fonctionnalité demandée depuis 2017 pour mettre en avant les décisions, mises à jour et prochaines étapes clés dans les threads longs.
Ce que ça signifie
Le 5 février 2026 restera comme un jour marquant : Anthropic et OpenAI lancent simultanément leurs modèles de coding les plus avancés. Claude Opus 4.6 domine les benchmarks de travail professionnel et de recherche d’information, tandis que GPT-5.3-Codex excelle en coding terminal et en utilisation d’ordinateur. Les deux modèles revendiquent le SOTA (State Of The Art, meilleur score de l’industrie) sur Terminal-Bench 2.0 — l’article d’Anthropic sur le bruit d’infrastructure prend tout son sens.
Au-delà des modèles, c’est la bataille des plateformes qui s’intensifie : OpenAI Frontier attaque l’enterprise avec des agents déployés chez Oracle et Uber, tandis qu’Anthropic mise sur l’écosystème développeur (GitHub, Xcode, Claude Code). Google avance sur tous les fronts avec Gemini 3 dans Search, Chrome et NotebookLM, et prépare le Super Bowl pour ancrer Gemini dans le grand public.
Sources
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues