Rechercher

GLM-5 open-source, Sabotage Risk Report ASL-4, OpenAI lance les primitives agentiques

GLM-5 open-source, Sabotage Risk Report ASL-4, OpenAI lance les primitives agentiques

Z.ai lance GLM-5, son nouveau modèle flagship open-source à 744 milliards de paramètres sous licence MIT, qui se hisse au premier rang des modèles open-source sur le coding et les tâches agentiques. Anthropic publie un rapport de risques de sabotage ASL-4 pour Opus 4.6, OpenAI enrichit son API de primitives agentiques, et Kimi révèle un système de 100 sous-agents parallèles. Côté écosystème, Runway lève 315 millions de dollars et ElevenLabs lance un mode expressif pour ses agents vocaux.


Z.ai lance GLM-5 : 744B paramètres, open-source sous licence MIT

11 février — Z.ai (Zhipu AI) lance GLM-5, son nouveau modèle frontier conçu pour l’ingénierie de systèmes complexes et les tâches agentiques de longue durée. Par rapport à GLM-4.5, le modèle passe de 355B paramètres (32B actifs) à 744B paramètres (40B actifs), avec des données de pré-entraînement qui augmentent de 23T à 28,5T tokens.

GLM-5 intègre DeepSeek Sparse Attention (DSA) pour réduire les coûts de déploiement tout en préservant la capacité de contexte long, et introduit “slime”, une infrastructure de reinforcement learning asynchrone qui améliore le débit d’entraînement post-training.

BenchmarkGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77,8%73,8%76,8%80,9%76,2%
HLE (text)30,524,831,528,437,2
HLE w/ Tools50,442,851,843,445,8
Terminal-Bench 2.056,241,050,859,354,2
Vending Bench 2$4 432$2 377$1 198$4 967$5 478

GLM-5 se positionne comme le meilleur modèle open-source sur le reasoning, le coding et les tâches agentiques, comblant l’écart avec les modèles frontier propriétaires. Sur Vending Bench 2, un benchmark qui simule la gestion d’un distributeur automatique sur un an, GLM-5 termine avec un solde de 4432,approchantClaudeOpus4.5(4 432, approchant Claude Opus 4.5 (4 967).

Au-delà du code, GLM-5 peut générer directement des fichiers .docx, .pdf et .xlsx — propositions, rapports financiers, tableurs — livrés clé en main. Z.ai déploie un mode Agent avec des skills intégrés pour la création de documents, supportant la collaboration multi-tours.

Les poids du modèle sont publiés sur Hugging Face sous licence MIT. GLM-5 est compatible avec Claude Code et OpenClaw, et disponible sur OpenRouter. Le déploiement est progressif, en commençant par les abonnés Coding Plan Max.

🔗 Blog technique GLM-5 🔗 Annonce sur X


Anthropic publie le premier rapport de risques de sabotage ASL-4

11 février — Anthropic publie un rapport de risques de sabotage pour Claude Opus 4.6, en anticipation du seuil de sécurité ASL-4 (AI Safety Level 4) pour la R&D autonome en IA.

Lors de la sortie de Claude Opus 4.5, Anthropic s’était engagé à rédiger des rapports de risques de sabotage pour chaque nouveau modèle frontier. Plutôt que de naviguer dans des seuils flous, l’entreprise a choisi de respecter proactivement le standard de sécurité ASL-4 plus élevé.

ÉlémentDétail
Modèle évaluéClaude Opus 4.6
Seuil de sécuritéASL-4 (AI Safety Level 4)
DomaineR&D autonome en IA
FormatRapport PDF public
PrécédentEngagement pris lors du lancement d’Opus 4.5

C’est une étape significative dans la transparence de la sécurité IA : Anthropic est l’un des premiers laboratoires à publier un tel rapport de sabotage pour un modèle en production.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇫🇷 Quand nous avons lancé Claude Opus 4.5, nous savions que les futurs modèles seraient proches de notre seuil AI Safety Level 4 pour la R&D autonome en IA. Nous nous étions donc engagés à rédiger des rapports de risques de sabotage pour les futurs modèles frontier. Aujourd’hui, nous tenons cet engagement pour Claude Opus 4.6.@AnthropicAI sur X

🔗 Thread Anthropic


OpenAI : nouvelles primitives agentiques dans l’API Responses

10 février — OpenAI introduit trois nouvelles primitives dans l’API Responses pour le travail agentique de longue durée.

Server-side compaction

Permet des sessions d’agents multi-heures sans atteindre les limites de contexte. La compaction est gérée côté serveur. Triple Whale, testeur en avant-première, rapporte avoir réalisé 150 appels d’outils et 5 millions de tokens dans une seule session sans perte de précision.

Containers with networking

Les conteneurs hébergés par OpenAI peuvent désormais accéder à internet de manière contrôlée. Les administrateurs définissent une liste blanche de domaines dans le dashboard, les requêtes doivent explicitement définir une network_policy, et des secrets de domaine peuvent être injectés sans exposer les valeurs brutes au modèle.

Skills in the API

Support natif du standard Agent Skills avec un premier skill pré-construit (spreadsheets). Les skills sont des bundles réutilisables et versionnés que l’on peut monter dans les environnements shell hébergés, et les modèles décident au runtime s’ils doivent les invoquer.

PrimitiveDescriptionStatus
Server-side compactionSessions multi-heures sans limites de contexteDisponible
Containers with networkingAccès internet contrôlé pour conteneurs hébergésDisponible
Skills in the APIBundles réutilisables (premier skill : spreadsheets)Disponible

🔗 Thread OpenAIDevs


Kimi Agent Swarm : orchestration de 100 sous-agents

10 février — Kimi (Moonshot AI) dévoile Agent Swarm, une capacité de coordination multi-agents permettant de paralléliser les tâches complexes avec jusqu’à 100 sous-agents spécialisés.

Le système peut exécuter plus de 1 500 appels d’outils et atteint une vitesse 4,5x supérieure aux exécutions séquentielles. Les cas d’usage couvrent la génération multi-fichiers simultanée (Word, Excel, PDFs), l’analyse parallèle de contenus, et la génération créative en plusieurs styles en parallèle. Agent Swarm résout une limite structurelle des LLMs : la dégradation du raisonnement lors de longues tâches qui remplissent le contexte.

🔗 Annonce Kimi


OpenAI Harness Engineering : zéro ligne de code manuel avec Codex

11 février — OpenAI publie un retour d’expérience sur la construction d’un produit logiciel interne avec zéro ligne de code écrite manuellement. Pendant 5 mois, une équipe de 3 à 7 ingénieurs a utilisé exclusivement Codex pour générer tout le code.

MétriqueValeur
Lignes de code générées~1 million
Pull requests~1 500
PRs par ingénieur par jour3,5 en moyenne
Utilisateurs internesPlusieurs centaines
Temps estimé1/10e du temps nécessaire à la main
Sessions CodexJusqu’à 6+ heures

L’approche “Harness Engineering” redéfinit le rôle de l’ingénieur : concevoir des environnements, spécifier l’intention et construire des boucles de feedback pour les agents, plutôt qu’écrire du code. La documentation structurée dans le repo sert de guide (AGENTS.md comme table des matières), l’architecture est rigide avec des linters et tests structurels générés par Codex, et des tâches récurrentes scannent les déviation et ouvrent des PRs de refactoring automatiquement.

🔗 Blog Harness Engineering


Runway lève 315 millions de dollars en Série E

10 février — Runway annonce une levée de fonds de 315 millions de dollars en Série E, portant sa valorisation à 5,3 milliards de dollars. Le tour est mené par General Atlantic, avec la participation de NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein et d’autres.

DétailValeur
Montant315 M$
SérieE
Valorisation5,3 Mds(vs3,3Mds (vs 3,3 Mds en Série D)
Lead investorGeneral Atlantic
Total levé depuis 2018860 M$

Les fonds serviront à pré-entraîner la prochaine génération de “world models” — des modèles capables de simuler le monde physique — et à les déployer dans de nouveaux produits et industries. Cette annonce intervient après le lancement de Gen-4.5, le dernier modèle de génération vidéo de Runway.

🔗 Annonce officielle 🔗 Post Runway sur X


Cowork disponible sur Windows

10 février — Claude Cowork, l’application desktop pour les tâches multi-étapes, est désormais disponible sur Windows en research preview avec une parité de fonctionnalités complète par rapport à macOS.

FonctionnalitéDescription
Accès fichiersLecture et écriture de fichiers locaux
PluginsSupport des plugins Cowork
Connecteurs MCPIntégration avec les serveurs MCP
Instructions par dossierStyle Claude.md — instructions en langage naturel par projet

Cowork sur Windows est disponible pour tous les plans Claude payants via claude.com/cowork.

🔗 Annonce Cowork Windows


Features gratuites sur le free plan Claude

11 février — Anthropic élargit les fonctionnalités accessibles sur le plan gratuit de Claude. La création de fichiers, les connecteurs, les skills et la compaction sont désormais disponibles sans abonnement. La compaction permet à Claude de résumer automatiquement le contexte précédent pour que les longues conversations puissent continuer sans recommencer.

🔗 Annonce free plan


Claude Code Plan Mode dans Slack

11 février — L’intégration Claude Code dans Slack reçoit le Plan Mode. Quand on donne à Claude une tâche de code dans Slack, il peut désormais élaborer un plan avant d’exécuter, permettant de valider l’approche avant implémentation.

FonctionnalitéDescription
Plan ModeÉlaboration d’un plan avant exécution
Détection automatiqueRoutage intelligent entre code et chat
Création de PRBouton “Create PR” directement depuis Slack
PrérequisPlan Pro, Max, Team ou Enterprise + GitHub connecté

🔗 Thread Boris Cherny


ElevenLabs lance le mode Expressif pour ses agents vocaux

10 février — ElevenLabs dévoile Expressive Mode pour ElevenAgents, une évolution qui rend ses agents vocaux IA capables d’adapter leur ton, leur émotion et leur emphase en temps réel.

Le mode repose sur Eleven v3 Conversational, un modèle de synthèse vocale optimisé pour le dialogue en temps réel, couplé à un nouveau système de prise de parole qui réduit les interruptions. Le tarif reste à 0,08 $ par minute. En parallèle, ElevenLabs restructure sa plateforme en trois familles de produits : ElevenAgents (agents vocaux), ElevenCreative (outils créatifs) et ElevenAPI (plateforme développeurs).

🔗 Blog Expressive Mode


Kimi K2.5 intégré sur Qoder

9 février — Qoder (plateforme IA pour développeurs) déploie Kimi K2.5 comme modèle phare de son marketplace, avec un score SWE-bench Verified de 76,8% et un tarif avantageux (0,3x crédit en tier Efficient). Le workflow recommandé : utiliser les modèles lourds pour le design et l’architecture, puis K2.5 pour l’implémentation.

🔗 Annonce Qoder


Ce que ça signifie

L’open-source continue de progresser rapidement vers les modèles frontier. GLM-5 de Z.ai réduit l’écart avec Claude Opus 4.5 et GPT-5.2 sur les benchmarks de coding et de tâches agentiques, tout en étant disponible sous licence MIT. La publication du rapport de sabotage ASL-4 par Anthropic établit un précédent en matière de transparence de sécurité que d’autres laboratoires seront probablement amenés à suivre.

Côté développeurs, les primitives agentiques d’OpenAI (compaction serveur, containers réseau, skills API) et l’approche “Harness Engineering” dessinent un futur où les agents autonomes gèrent des sessions de plusieurs heures. Kimi Agent Swarm pousse cette logique encore plus loin avec l’orchestration de centaines de sous-agents en parallèle.


Sources