Anthropic frappe fort avec Claude Sonnet 4.6, un modèle qui rivalise avec Opus sur de nombreuses tâches à un prix Sonnet. En parallèle, Qwen publie son premier modèle Qwen3.5 en open-weight avec 397 milliards de paramètres, et Google intègre Lyria 3 — son modèle de génération musicale — directement dans Gemini.
Claude Sonnet 4.6 : performances Opus au prix Sonnet
17 février — Anthropic lance Claude Sonnet 4.6, décrit comme le Sonnet le plus capable à ce jour. Le modèle représente une mise à niveau complète sur le coding, l’utilisation d’ordinateur (computer use), le raisonnement long-contexte, la planification d’agents, le travail intellectuel et le design. Il embarque une fenêtre de contexte de 1 million de tokens en bêta.
Le positionnement est clair : des performances qui auraient nécessité un modèle Opus sont désormais accessibles au tarif Sonnet, soit 15 par million de tokens (inchangé par rapport à Sonnet 4.5). Sonnet 4.6 devient le modèle par défaut sur les plans Free et Pro dans claude.ai et Claude Cowork.
Benchmarks et retours utilisateurs
Dans Claude Code, les testeurs ont préféré Sonnet 4.6 à Sonnet 4.5 environ 70% du temps, rapportant une meilleure lecture du contexte avant modification du code et une consolidation de la logique partagée au lieu de la dupliquer. Plus notable encore : les utilisateurs ont préféré Sonnet 4.6 à Opus 4.5 (le modèle frontier de novembre 2025) 59% du temps, citant moins de sur-ingénierie, moins de « paresse » et un meilleur suivi des instructions.
| Benchmark | Score |
|---|---|
| SWE-bench Verified | 80.2% (avec modification de prompt) |
| OSWorld (computer use) | Progression majeure sur 16 mois |
| OfficeQA | Égale Opus 4.6 |
| Vending-Bench Arena | Stratégie émergente d’investissement/pivot |
Le computer use progresse significativement : Sonnet 4.6 améliore aussi la résistance aux prompt injections par rapport à Sonnet 4.5, atteignant un niveau comparable à Opus 4.6.
Mises à jour produit associées
L’annonce s’accompagne de plusieurs passages en disponibilité générale sur l’API Claude : exécution de code, mémoire, appels d’outils programmatiques, recherche d’outils et exemples d’utilisation d’outils. La recherche web et les outils fetch intègrent désormais un filtrage dynamique — Claude écrit et exécute automatiquement du code pour filtrer les résultats de recherche, ne gardant que le contenu pertinent en contexte.
🔗 Recherche web améliorée avec filtrage dynamique
Pour les utilisateurs de Claude in Excel, le complément supporte maintenant les connecteurs MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponible sur les plans Pro, Max, Team et Enterprise.
Anthropic mesure l’autonomie des agents IA en conditions réelles
18 février — Anthropic publie une étude analysant des millions d’interactions humain-agent à travers Claude Code et l’API publique, avec un objectif : comprendre comment les humains gèrent l’autonomie des agents en pratique.
Résultats clés
| Métrique | Valeur |
|---|---|
| Durée maximale autonome (99.9e percentile) | ~45 minutes (doublé en 3 mois) |
| Auto-approve (utilisateurs expérimentés) | 40%+ (vs 20% pour les nouveaux) |
| Part du software engineering dans le trafic API | ~50% |
| Actions avec garde-fous | 80% |
| Actions avec humain dans la boucle | 73% |
| Actions irréversibles | 0.8% |
Un constat contre-intuitif : les utilisateurs expérimentés augmentent à la fois le taux d’auto-approve ET le taux d’interruption. Ils passent d’une supervision action par action à un monitoring actif avec intervention ciblée. Par ailleurs, Claude s’arrête pour demander des clarifications plus souvent que les humains ne l’interrompent, particulièrement sur les tâches complexes.
L’étude conclut qu’il existe un écart significatif entre capacité et usage : l’autonomie que les modèles sont capables de gérer dépasse largement celle qu’on leur accorde en pratique — un phénomène que les chercheurs qualifient de « surplus d’autonomie non déployée ».
Anthropic : partenariats Rwanda et Infosys
17 février — En parallèle du lancement de Sonnet 4.6, Anthropic signe un protocole d’accord avec le gouvernement du Rwanda pour déployer Claude dans les secteurs de la santé, de l’éducation et de l’administration publique. Le partenariat, mené avec le ministère des TIC et de l’Innovation, inclut la formation des fonctionnaires et le déploiement d’un compagnon d’apprentissage IA dans huit pays africains.
Anthropic annonce également une collaboration avec Infosys pour construire des agents IA destinés aux télécommunications et autres industries régulées.
Qwen3.5-397B-A17B : premier open-weight de la série 3.5
16 février — Alibaba Qwen publie Qwen3.5-397B-A17B, le premier modèle open-weight de la série Qwen3.5. Il s’agit d’une avancée significative avec une architecture hybride combinant attention linéaire et Mixture-of-Experts (MoE) sparse.
| Caractéristique | Détails |
|---|---|
| Paramètres totaux | 397B (architecture hybrid MoE) |
| Architecture | Hybrid linear attention + sparse MoE |
| Débit | 8.6x à 19.0x supérieur à Qwen3-Max |
| Langues | 201 langues et dialectes |
| Licence | Apache 2.0 |
| Entraînement | Apprentissage par renforcement à grande échelle |
| Spécialité | Multimodal natif, agents réels |
Le modèle est disponible immédiatement sur Hugging Face, ModelScope, Alibaba Cloud Model Studio, et via Qwen Code. Avec 201 langues supportées et une licence Apache 2.0, c’est l’un des modèles open-weight les plus ambitieux du moment en termes de couverture linguistique et de débit d’inférence.
Google Lyria 3 : la génération musicale arrive dans Gemini
18 février — Google et DeepMind présentent Lyria 3, un modèle de génération musicale IA intégré directement à l’application Gemini. Les utilisateurs peuvent créer des pistes musicales de 30 secondes à partir de prompts textuels, de photos ou de vidéos, avec génération de paroles personnalisées.
| Fonctionnalité | Détails |
|---|---|
| Entrées | Texte, images, vidéos |
| Sortie | Pistes audio 30 secondes |
| Personnalisation | Styles musicaux variés, paroles générées |
| Disponibilité | Bêta dans Gemini (18 ans+) |
Lyria 3 démontre une flexibilité notable dans les combinaisons d’instruments et de genres, permettant des créations allant du jingle aux compositions lo-fi. Le déploiement mondial est progressif.
OpenAI EVMbench : benchmark sécurité pour smart contracts
18 février — OpenAI et Paradigm lancent EVMbench, un benchmark évaluant la capacité des agents IA à détecter, corriger et exploiter les vulnérabilités dans les smart contracts Ethereum. Le benchmark repose sur 120 vulnérabilités curées issues de 40 audits (principalement des compétitions Code4rena).
| Mode | Description | GPT-5.3-Codex | GPT-5 (6 mois) |
|---|---|---|---|
| Exploit | Exécuter des attaques de drainage | 72.2% | 31.9% |
| Detect | Auditer et détecter les vulnérabilités | < couverture complète | - |
| Patch | Corriger en préservant la fonctionnalité | < couverture complète | - |
Un constat intéressant : les agents IA réussissent mieux en exploitation (objectif explicite) qu’en détection et correction, où ils abandonnent souvent après la première vulnérabilité trouvée. OpenAI réaffirme son engagement de $10M en crédits API pour la cybersécurité défensive.
GLM-5 Technical Report : Z.ai documente son modèle
18 février — Z.ai publie le rapport technique complet de GLM-5, détaillant les innovations architecturales du modèle lancé le 11 février (744B paramètres, 40B actifs, MIT License).
Trois innovations clés documentées : Dynamic Sparse Attention (DSA) pour réduire les coûts d’entraînement et d’inférence, une infrastructure RL asynchrone découplant génération et entraînement, et des algorithmes RL pour agents permettant des interactions complexes et long-horizon. Le rapport est disponible sur arXiv.
🔗 Tweet @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya : IA multilingue ultra-compacte
17 février — Cohere Labs présente Tiny Aya, une famille de petits modèles de langage supportant 70+ langues avec seulement 3.35 milliards de paramètres. L’objectif : rendre l’IA multilingue accessible partout, y compris sur téléphone et hors-ligne.
Tiny Aya cible trois publics : les chercheurs travaillant en langues non-anglaises, les développeurs construisant pour des communautés numériquement sous-servies, et les applications embarquées nécessitant traduction fiable sans dépendance au cloud. Le modèle inclut une capacité de traduction hors-ligne, améliorant la confidentialité et réduisant la latence.
Runway Gen-4.5 disponible via API + Claude Code Skill
17 février — Runway ouvre l’accès à Gen-4.5 via son API, permettant aux développeurs d’intégrer la génération d’images, de vidéos et d’audio directement dans leurs projets. L’annonce s’accompagne d’un Claude Code Skill dédié, disponible sur GitHub, qui permet de générer du contenu multimédia Runway sans quitter l’environnement de développement.
🔗 Tweet @runwayml · 🔗 GitHub Skills
Manus Agents : agent personnel avec mémoire long terme
16 février — Manus lance Manus Agents, une capacité permettant à chaque utilisateur de disposer d’un agent personnel directement dans les conversations chat. L’agent combine mémoire long terme (style, ton et préférences retenus), capacités complètes de création (vidéos, slides, sites, images), et intégrations directes avec Gmail, Calendar et Notion.
ElevenAgents for Support
17 février — ElevenLabs lance ElevenAgents for Support, des agents conversationnels IA pour le support client. Fonctionnant en voix et canaux numériques dans plus de 70 langues, ces agents s’appuient sur la plateforme agentic d’ElevenLabs et ses 4M+ déploiements en production.
NotebookLM x Zillow : notebook immobilier
18 février — NotebookLM lance en partenariat avec Zillow un Featured Notebook gratuit pour les acheteurs immobiliers, centralisant les conseils d’experts sur la préparation financière, l’évaluation du marché et les procédures d’achat.
Ce que ça signifie
Cette semaine illustre deux tendances majeures. La première est la démocratisation des performances frontier : Sonnet 4.6 apporte des capacités Opus à un tarif 5 fois inférieur, tandis que Qwen3.5 rend un modèle de 397B paramètres accessible en Apache 2.0. La seconde est l’expansion des agents IA dans de nouveaux domaines — l’étude d’Anthropic montre que les sessions autonomes les plus longues ont doublé en trois mois, et des acteurs comme Manus, ElevenLabs et Runway construisent des agents spécialisés (chat personnel, support client, création multimédia).
L’arrivée de la génération musicale dans Gemini avec Lyria 3 et le benchmark EVMbench pour la sécurité blockchain montrent aussi que l’IA générative et l’IA de sécurité continuent de se structurer comme des domaines à part entière.
Sources
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Recherche web améliorée avec filtrage dynamique — Claude Blog
- Claude API improvements — @claudeai