Claude Sonnet 4.6, Qwen3.5-397B en open-weight, Google lance Lyria 3

Anthropic frappe fort avec Claude Sonnet 4.6, un modèle qui rivalise avec Opus sur de nombreuses tâches à un prix Sonnet. En parallèle, Qwen publie son premier modèle Qwen3.5 en open-weight avec 397 milliards de paramètres, et Google intègre Lyria 3 — son modèle de génération musicale — directement dans Gemini.

Claude Sonnet 4.6 : performances Opus au prix Sonnet

17 février — Anthropic lance Claude Sonnet 4.6, décrit comme le Sonnet le plus capable à ce jour. Le modèle représente une mise à niveau complète sur le coding, l’utilisation d’ordinateur (computer use), le raisonnement long-contexte, la planification d’agents, le travail intellectuel et le design. Il embarque une fenêtre de contexte de 1 million de tokens en bêta.

Le positionnement est clair : des performances qui auraient nécessité un modèle Opus sont désormais accessibles au tarif Sonnet, soit $3 /$ 15 par million de tokens (inchangé par rapport à Sonnet 4.5). Sonnet 4.6 devient le modèle par défaut sur les plans Free et Pro dans claude.ai et Claude Cowork.

Benchmarks et retours utilisateurs

Dans Claude Code, les testeurs ont préféré Sonnet 4.6 à Sonnet 4.5 environ 70% du temps, rapportant une meilleure lecture du contexte avant modification du code et une consolidation de la logique partagée au lieu de la dupliquer. Plus notable encore : les utilisateurs ont préféré Sonnet 4.6 à Opus 4.5 (le modèle frontier de novembre 2025) 59% du temps, citant moins de sur-ingénierie, moins de « paresse » et un meilleur suivi des instructions.

Benchmark	Score
SWE-bench Verified	80.2% (avec modification de prompt)
OSWorld (computer use)	Progression majeure sur 16 mois
OfficeQA	Égale Opus 4.6
Vending-Bench Arena	Stratégie émergente d’investissement/pivot

Le computer use progresse significativement : Sonnet 4.6 améliore aussi la résistance aux prompt injections par rapport à Sonnet 4.5, atteignant un niveau comparable à Opus 4.6.

Mises à jour produit associées

L’annonce s’accompagne de plusieurs passages en disponibilité générale sur l’API Claude : exécution de code, mémoire, appels d’outils programmatiques, recherche d’outils et exemples d’utilisation d’outils. La recherche web et les outils fetch intègrent désormais un filtrage dynamique — Claude écrit et exécute automatiquement du code pour filtrer les résultats de recherche, ne gardant que le contenu pertinent en contexte.

🔗 Recherche web améliorée avec filtrage dynamique

Pour les utilisateurs de Claude in Excel, le complément supporte maintenant les connecteurs MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponible sur les plans Pro, Max, Team et Enterprise.

🔗 Annonce officielle

Anthropic mesure l’autonomie des agents IA en conditions réelles

18 février — Anthropic publie une étude analysant des millions d’interactions humain-agent à travers Claude Code et l’API publique, avec un objectif : comprendre comment les humains gèrent l’autonomie des agents en pratique.

Résultats clés

Métrique	Valeur
Durée maximale autonome (99.9e percentile)	~45 minutes (doublé en 3 mois)
Auto-approve (utilisateurs expérimentés)	40%+ (vs 20% pour les nouveaux)
Part du software engineering dans le trafic API	~50%
Actions avec garde-fous	80%
Actions avec humain dans la boucle	73%
Actions irréversibles	0.8%

Un constat contre-intuitif : les utilisateurs expérimentés augmentent à la fois le taux d’auto-approve ET le taux d’interruption. Ils passent d’une supervision action par action à un monitoring actif avec intervention ciblée. Par ailleurs, Claude s’arrête pour demander des clarifications plus souvent que les humains ne l’interrompent, particulièrement sur les tâches complexes.

L’étude conclut qu’il existe un écart significatif entre capacité et usage : l’autonomie que les modèles sont capables de gérer dépasse largement celle qu’on leur accorde en pratique — un phénomène que les chercheurs qualifient de « surplus d’autonomie non déployée ».

🔗 Étude complète

Anthropic : partenariats Rwanda et Infosys

17 février — En parallèle du lancement de Sonnet 4.6, Anthropic signe un protocole d’accord avec le gouvernement du Rwanda pour déployer Claude dans les secteurs de la santé, de l’éducation et de l’administration publique. Le partenariat, mené avec le ministère des TIC et de l’Innovation, inclut la formation des fonctionnaires et le déploiement d’un compagnon d’apprentissage IA dans huit pays africains.

Anthropic annonce également une collaboration avec Infosys pour construire des agents IA destinés aux télécommunications et autres industries régulées.

🔗 Partenariat Rwanda

Qwen3.5-397B-A17B : premier open-weight de la série 3.5

16 février — Alibaba Qwen publie Qwen3.5-397B-A17B, le premier modèle open-weight de la série Qwen3.5. Il s’agit d’une avancée significative avec une architecture hybride combinant attention linéaire et Mixture-of-Experts (MoE) sparse.

Caractéristique	Détails
Paramètres totaux	397B (architecture hybrid MoE)
Architecture	Hybrid linear attention + sparse MoE
Débit	8.6x à 19.0x supérieur à Qwen3-Max
Langues	201 langues et dialectes
Licence	Apache 2.0
Entraînement	Apprentissage par renforcement à grande échelle
Spécialité	Multimodal natif, agents réels

Le modèle est disponible immédiatement sur Hugging Face, ModelScope, Alibaba Cloud Model Studio, et via Qwen Code. Avec 201 langues supportées et une licence Apache 2.0, c’est l’un des modèles open-weight les plus ambitieux du moment en termes de couverture linguistique et de débit d’inférence.

🔗 Tweet @Alibaba_Qwen

Google Lyria 3 : la génération musicale arrive dans Gemini

18 février — Google et DeepMind présentent Lyria 3, un modèle de génération musicale IA intégré directement à l’application Gemini. Les utilisateurs peuvent créer des pistes musicales de 30 secondes à partir de prompts textuels, de photos ou de vidéos, avec génération de paroles personnalisées.

Fonctionnalité	Détails
Entrées	Texte, images, vidéos
Sortie	Pistes audio 30 secondes
Personnalisation	Styles musicaux variés, paroles générées
Disponibilité	Bêta dans Gemini (18 ans+)

Lyria 3 démontre une flexibilité notable dans les combinaisons d’instruments et de genres, permettant des créations allant du jingle aux compositions lo-fi. Le déploiement mondial est progressif.

🔗 Tweet @GoogleAI

OpenAI EVMbench : benchmark sécurité pour smart contracts

18 février — OpenAI et Paradigm lancent EVMbench, un benchmark évaluant la capacité des agents IA à détecter, corriger et exploiter les vulnérabilités dans les smart contracts Ethereum. Le benchmark repose sur 120 vulnérabilités curées issues de 40 audits (principalement des compétitions Code4rena).

Mode	Description	GPT-5.3-Codex	GPT-5 (6 mois)
Exploit	Exécuter des attaques de drainage	72.2%	31.9%
Detect	Auditer et détecter les vulnérabilités	< couverture complète	-
Patch	Corriger en préservant la fonctionnalité	< couverture complète	-

Un constat intéressant : les agents IA réussissent mieux en exploitation (objectif explicite) qu’en détection et correction, où ils abandonnent souvent après la première vulnérabilité trouvée. OpenAI réaffirme son engagement de $10M en crédits API pour la cybersécurité défensive.

🔗 Annonce EVMbench

GLM-5 Technical Report : Z.ai documente son modèle

18 février — Z.ai publie le rapport technique complet de GLM-5, détaillant les innovations architecturales du modèle lancé le 11 février (744B paramètres, 40B actifs, MIT License).

Trois innovations clés documentées : Dynamic Sparse Attention (DSA) pour réduire les coûts d’entraînement et d’inférence, une infrastructure RL asynchrone découplant génération et entraînement, et des algorithmes RL pour agents permettant des interactions complexes et long-horizon. Le rapport est disponible sur arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya : IA multilingue ultra-compacte

17 février — Cohere Labs présente Tiny Aya, une famille de petits modèles de langage supportant 70+ langues avec seulement 3.35 milliards de paramètres. L’objectif : rendre l’IA multilingue accessible partout, y compris sur téléphone et hors-ligne.

Tiny Aya cible trois publics : les chercheurs travaillant en langues non-anglaises, les développeurs construisant pour des communautés numériquement sous-servies, et les applications embarquées nécessitant traduction fiable sans dépendance au cloud. Le modèle inclut une capacité de traduction hors-ligne, améliorant la confidentialité et réduisant la latence.

🔗 Tweet @cohere

Runway Gen-4.5 disponible via API + Claude Code Skill

17 février — Runway ouvre l’accès à Gen-4.5 via son API, permettant aux développeurs d’intégrer la génération d’images, de vidéos et d’audio directement dans leurs projets. L’annonce s’accompagne d’un Claude Code Skill dédié, disponible sur GitHub, qui permet de générer du contenu multimédia Runway sans quitter l’environnement de développement.

🔗 Tweet @runwayml · 🔗 GitHub Skills

Manus Agents : agent personnel avec mémoire long terme

16 février — Manus lance Manus Agents, une capacité permettant à chaque utilisateur de disposer d’un agent personnel directement dans les conversations chat. L’agent combine mémoire long terme (style, ton et préférences retenus), capacités complètes de création (vidéos, slides, sites, images), et intégrations directes avec Gmail, Calendar et Notion.

🔗 Tweet @ManusAI

ElevenAgents for Support

17 février — ElevenLabs lance ElevenAgents for Support, des agents conversationnels IA pour le support client. Fonctionnant en voix et canaux numériques dans plus de 70 langues, ces agents s’appuient sur la plateforme agentic d’ElevenLabs et ses 4M+ déploiements en production.

🔗 ElevenLabs Agents

NotebookLM x Zillow : notebook immobilier

18 février — NotebookLM lance en partenariat avec Zillow un Featured Notebook gratuit pour les acheteurs immobiliers, centralisant les conseils d’experts sur la préparation financière, l’évaluation du marché et les procédures d’achat.

🔗 Tweet @NotebookLM

Ce que ça signifie

Cette semaine illustre deux tendances majeures. La première est la démocratisation des performances frontier : Sonnet 4.6 apporte des capacités Opus à un tarif 5 fois inférieur, tandis que Qwen3.5 rend un modèle de 397B paramètres accessible en Apache 2.0. La seconde est l’expansion des agents IA dans de nouveaux domaines — l’étude d’Anthropic montre que les sessions autonomes les plus longues ont doublé en trois mois, et des acteurs comme Manus, ElevenLabs et Runway construisent des agents spécialisés (chat personnel, support client, création multimédia).

L’arrivée de la génération musicale dans Gemini avec Lyria 3 et le benchmark EVMbench pour la sécurité blockchain montrent aussi que l’IA générative et l’IA de sécurité continuent de se structurer comme des domaines à part entière.