Z.ai lanceert GLM-5, zijn nieuwe open-source flagshipmodel met 744 miljard parameters onder MIT-licentie, dat de eerste plaats inneemt bij open-source modellen voor coding en agentic taken. Anthropic publiceert een ASL-4 sabotage risicorapport voor Opus 4.6, OpenAI verrijkt zijn API met agentic primitives, en Kimi onthult een systeem van 100 parallelle sub-agenten. Aan de ecosysteemkant haalt Runway 315 miljoen dollar op en lanceert ElevenLabs een expressieve modus voor zijn stemagenten.
Z.ai lanceert GLM-5: 744B parameters, open-source onder MIT-licentie
11 februari — Z.ai (Zhipu AI) lanceert GLM-5, zijn nieuwe frontier model ontworpen voor complexe systeemtechniek en langdurige agentic taken. In vergelijking met GLM-4.5 groeit het model van 355B parameters (32B actief) naar 744B parameters (40B actief), waarbij de pre-trainingsdata toenemen van 23T naar 28,5T tokens.
GLM-5 integreert DeepSeek Sparse Attention (DSA) om de implementatiekosten te verlagen met behoud van lange contextcapaciteit, en introduceert “slime”, een asynchrone reinforcement learning-infrastructuur die de post-training doorvoer verbetert.
| Benchmark | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77,8% | 73,8% | 76,8% | 80,9% | 76,2% |
| HLE (text) | 30,5 | 24,8 | 31,5 | 28,4 | 37,2 |
| HLE w/ Tools | 50,4 | 42,8 | 51,8 | 43,4 | 45,8 |
| Terminal-Bench 2.0 | 56,2 | 41,0 | 50,8 | 59,3 | 54,2 |
| Vending Bench 2 | $4.432 | $2.377 | $1.198 | $4.967 | $5.478 |
GLM-5 positioneert zich als het beste open-source model voor redeneren, coding en agentic taken, en dicht het gat met propriëtaire frontier modellen. Op Vending Bench 2, een benchmark die het beheer van een verkoopautomaat gedurende een jaar simuleert, eindigt GLM-5 met een saldo van 4.967) nadert.
Naast code kan GLM-5 direct .docx, .pdf en .xlsx bestanden genereren — voorstellen, financiële rapporten, spreadsheets — kant-en-klaar geleverd. Z.ai implementeert een Agent-modus met ingebouwde vaardigheden voor documentcreatie, die samenwerking in meerdere beurten ondersteunt.
De modelgewichten worden gepubliceerd op Hugging Face onder MIT-licentie. GLM-5 is compatibel met Claude Code en OpenClaw, en beschikbaar op OpenRouter. De uitrol is progressief, beginnend met Coding Plan Max-abonnees.
🔗 Technische blog GLM-5 🔗 Aankondiging op X
Anthropic publiceert eerste ASL-4 sabotage risicorapport
11 februari — Anthropic publiceert een sabotage risicorapport voor Claude Opus 4.6, vooruitlopend op de ASL-4 (AI Safety Level 4) veiligheidsdrempel voor autonome AI R&D.
Bij de release van Claude Opus 4.5 had Anthropic zich ertoe verbonden om sabotage risicorapporten te schrijven voor elk nieuw frontier model. In plaats van te navigeren door vage drempels, koos het bedrijf ervoor om proactief de hogere ASL-4 veiligheidsstandaard te respecteren.
| Element | Detail |
|---|---|
| Geëvalueerd model | Claude Opus 4.6 |
| Veiligheidsdrempel | ASL-4 (AI Safety Level 4) |
| Domein | Autonome AI R&D |
| Formaat | Openbaar PDF-rapport |
| Precedent | Verbintenis aangegaan tijdens lancering Opus 4.5 |
Dit is een belangrijke stap in de transparantie van AI-veiligheid: Anthropic is een van de eerste laboratoria die een dergelijk sabotagerapport publiceert voor een model in productie.
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇳🇱 Toen we Claude Opus 4.5 uitbrachten, wisten we dat toekomstige modellen dicht bij onze AI Safety Level 4-drempel voor autonome AI R&D zouden liggen. We hebben ons daarom verplicht om sabotage risicorapporten te schrijven voor toekomstige frontier modellen. Vandaag komen we die belofte na voor Claude Opus 4.6. — @AnthropicAI op X
OpenAI: nieuwe agentic primitives in de Responses API
10 februari — OpenAI introduceert drie nieuwe primitives in de Responses API voor langdurig agentic werk.
Server-side compaction
Maakt agent-sessies van meerdere uren mogelijk zonder contextlimieten te bereiken. De compactie wordt aan de serverzijde beheerd. Triple Whale, een early access-tester, meldt dat ze 150 tool calls en 5 miljoen tokens in één sessie hebben uitgevoerd zonder verlies van precisie.
Containers with networking
Containers gehost door OpenAI kunnen nu op een gecontroleerde manier toegang krijgen tot internet. Beheerders definiëren een whitelist van domeinen in het dashboard, verzoeken moeten expliciet een network_policy definiëren, en domeingeheimen kunnen worden geïnjecteerd zonder ruwe waarden bloot te stellen aan het model.
Skills in the API
Native ondersteuning van de Agent Skills-standaard met een eerste vooraf gebouwde vaardigheid (spreadsheets). Skills zijn herbruikbare en geversioneerde bundels die kunnen worden gemount in gehoste shell-omgevingen, en modellen beslissen tijdens runtime of ze deze moeten aanroepen.
| Primitive | Beschrijving | Status |
|---|---|---|
| Server-side compaction | Meeruursessies zonder contextlimieten | Beschikbaar |
| Containers with networking | Gecontroleerde internettoegang voor gehoste containers | Beschikbaar |
| Skills in the API | Herbruikbare bundels (eerste vaardigheid: spreadsheets) | Beschikbaar |
Kimi Agent Swarm: orkestratie van 100 sub-agenten
10 februari — Kimi (Moonshot AI) onthult Agent Swarm, een multi-agent coördinatiecapaciteit die het mogelijk maakt om complexe taken te parallelliseren met maximaal 100 gespecialiseerde sub-agenten.
Het systeem kan meer dan 1.500 tool calls uitvoeren en bereikt een snelheid die 4,5x hoger is dan sequentiële uitvoeringen. De use cases omvatten gelijktijdige generatie van meerdere bestanden (Word, Excel, PDF’s), parallelle inhoudsanalyse en creatieve generatie in meerdere stijlen parallel. Agent Swarm lost een structurele limiet van LLM’s op: de degradatie van redeneren tijdens lange taken die de context vullen.
OpenAI Harness Engineering: nul regels handmatige code met Codex
11 februari — OpenAI publiceert feedback over het bouwen van een intern softwareproduct met nul regels code die handmatig zijn geschreven. Gedurende 5 maanden gebruikte een team van 3 tot 7 ingenieurs uitsluitend Codex om alle code te genereren.
| Metriek | Waarde |
|---|---|
| Gegenereerde regels code | ~1 miljoen |
| Pull requests | ~1.500 |
| PR’s per ingenieur per dag | 3,5 gemiddeld |
| Interne gebruikers | Enkele honderden |
| Geschatte tijd | 1/10e van de tijd die met de hand nodig is |
| Codex-sessies | Tot 6+ uur |
De “Harness Engineering”-aanpak herdefinieert de rol van de ingenieur: omgevingen ontwerpen, intentie specificeren en feedbacklussen bouwen voor agenten, in plaats van code te schrijven. De gestructureerde documentatie in de repo dient als gids (AGENTS.md als inhoudsopgave), de architectuur is rigide met linters en structurele tests gegenereerd door Codex, en terugkerende taken scannen op afwijkingen en openen automatisch refactoring PR’s.
Runway haalt 315 miljoen dollar op in Series E
10 februari — Runway kondigt een Series E-fondsenwerving aan van 315 miljoen dollar, wat de waardering op 5,3 miljard dollar brengt. De ronde wordt geleid door General Atlantic, met deelname van NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein en anderen.
| Detail | Waarde |
|---|---|
| Bedrag | $315M |
| Serie | E |
| Waardering | 3,3 miljard in Series D) |
| Hoofdinvesteerder | General Atlantic |
| Totaal opgehaald sinds 2018 | $860M |
De fondsen zullen worden gebruikt om de volgende generatie “world models” voor te trainen — modellen die in staat zijn om de fysieke wereld te simuleren — en deze in te zetten in nieuwe producten en industrieën. Deze aankondiging komt na de lancering van Gen-4.5, het nieuwste videogeneratiemodel van Runway.
🔗 Officiële Aankondiging 🔗 Runway Post op X
Cowork beschikbaar op Windows
10 februari — Claude Cowork, de desktopapplicatie voor taken in meerdere stappen, is nu beschikbaar op Windows in research preview met volledige functiepariteit in vergelijking met macOS.
| Functie | Beschrijving |
|---|---|
| Bestandstoegang | Lezen en schrijven van lokale bestanden |
| Plugins | Ondersteuning voor Cowork-plugins |
| MCP-connectoren | Integratie met MCP-servers |
| Instructies per map | Stijl Claude.md — instructies in natuurlijke taal per project |
Cowork op Windows is beschikbaar voor alle betaalde Claude-plannen via claude.com/cowork.
Gratis functies in het gratis Claude-abonnement
11 februari — Anthropic breidt de functies uit die toegankelijk zijn in het gratis Claude-abonnement. Bestandscreatie, connectoren, vaardigheden en compactie zijn nu beschikbaar zonder abonnement. Compactie stelt Claude in staat om de vorige context automatisch samen te vatten, zodat lange gesprekken kunnen doorgaan zonder opnieuw te beginnen.
🔗 Aankondiging gratis abonnement
Claude Code Plan Mode in Slack
11 februari — De Claude Code-integratie in Slack krijgt de Plan Mode. Wanneer je Claude een codetaak geeft in Slack, kan hij nu een plan opstellen voordat hij het uitvoert, waardoor de aanpak vóór implementatie kan worden gevalideerd.
| Functie | Beschrijving |
|---|---|
| Plan Mode | Opstellen van een plan vóór uitvoering |
| Automatische detectie | Intelligente routing tussen code en chat |
| PR-creatie | Knop “Create PR” direct vanuit Slack |
| Vereisten | Pro, Max, Team of Enterprise Plan + GitHub verbonden |
ElevenLabs lanceert Expressieve Modus voor zijn stemagenten
10 februari — ElevenLabs onthult Expressive Mode voor ElevenAgents, een evolutie die zijn AI-stemagenten in staat stelt hun toon, emotie en nadruk in realtime aan te passen.
De modus is gebaseerd op Eleven v3 Conversational, een stemsynthesemodel geoptimaliseerd voor realtime dialoog, gekoppeld aan een nieuw beurtwisselingssysteem dat onderbrekingen vermindert. De prijs blijft op $0,08 per minuut. Tegelijkertijd herstructureert ElevenLabs zijn platform in drie productfamilies: ElevenAgents (stemagenten), ElevenCreative (creatieve tools) en ElevenAPI (ontwikkelaarsplatform).
Kimi K2.5 geïntegreerd op Qoder
9 februari — Qoder (AI-platform voor ontwikkelaars) implementeert Kimi K2.5 als vlaggenschipmodel van zijn marktplaats, met een SWE-bench Verified score van 76,8% en een voordelig tarief (0,3x tegoed in Efficient tier). De aanbevolen workflow: gebruik zware modellen voor ontwerp en architectuur, en vervolgens K2.5 voor de implementatie.
Wat dit betekent
Open-source blijft snel vooruitgang boeken richting frontier modellen. GLM-5 van Z.ai verkleint het gat met Claude Opus 4.5 en GPT-5.2 op benchmarks voor coding en agentic taken, terwijl het beschikbaar is onder MIT-licentie. De publicatie van het ASL-4 sabotagerapport door Anthropic schept een precedent voor veiligheidstransparantie dat andere laboratoria waarschijnlijk zullen moeten volgen.
Aan de ontwikkelaarskant schetsen de agentic primitives van OpenAI (server-side compactie, netwerkcontainers, API-vaardigheden) en de “Harness Engineering”-aanpak een toekomst waarin autonome agenten sessies van meerdere uren beheren. Kimi Agent Swarm duwt deze logica nog verder met de orkestratie van honderden parallelle sub-agenten.
Bronnen
- Z.ai — Technische blog GLM-5
- Z.ai — Aankondiging GLM-5 op X
- Anthropic — Thread over Sabotage Risicorapport
- OpenAIDevs — Agentic Primitives
- OpenAI — Harness Engineering
- Kimi — Agent Swarm
- Runway — Series E Funding
- Claude — Cowork Windows
- Claude — Gratis abonnement functies
- Boris Cherny — Claude Code Slack
- ElevenLabs — Expressive Mode
- Qoder — Kimi K2.5