GLM-5 open-source, Sabotage Risk Report ASL-4, OpenAI lanceert agentic primitives

Z.ai lanceert GLM-5, zijn nieuwe open-source flagshipmodel met 744 miljard parameters onder MIT-licentie, dat de eerste plaats inneemt bij open-source modellen voor coding en agentic taken. Anthropic publiceert een ASL-4 sabotage risicorapport voor Opus 4.6, OpenAI verrijkt zijn API met agentic primitives, en Kimi onthult een systeem van 100 parallelle sub-agenten. Aan de ecosysteemkant haalt Runway 315 miljoen dollar op en lanceert ElevenLabs een expressieve modus voor zijn stemagenten.

Z.ai lanceert GLM-5: 744B parameters, open-source onder MIT-licentie

11 februari — Z.ai (Zhipu AI) lanceert GLM-5, zijn nieuwe frontier model ontworpen voor complexe systeemtechniek en langdurige agentic taken. In vergelijking met GLM-4.5 groeit het model van 355B parameters (32B actief) naar 744B parameters (40B actief), waarbij de pre-trainingsdata toenemen van 23T naar 28,5T tokens.

GLM-5 integreert DeepSeek Sparse Attention (DSA) om de implementatiekosten te verlagen met behoud van lange contextcapaciteit, en introduceert “slime”, een asynchrone reinforcement learning-infrastructuur die de post-training doorvoer verbetert.

Benchmark	GLM-5	GLM-4.7	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro
SWE-bench Verified	77,8%	73,8%	76,8%	80,9%	76,2%
HLE (text)	30,5	24,8	31,5	28,4	37,2
HLE w/ Tools	50,4	42,8	51,8	43,4	45,8
Terminal-Bench 2.0	56,2	41,0	50,8	59,3	54,2
Vending Bench 2	$4.432	$2.377	$1.198	$4.967	$5.478

GLM-5 positioneert zich als het beste open-source model voor redeneren, coding en agentic taken, en dicht het gat met propriëtaire frontier modellen. Op Vending Bench 2, een benchmark die het beheer van een verkoopautomaat gedurende een jaar simuleert, eindigt GLM-5 met een saldo van $4.432, waarmee het Claude Opus 4.5 ($ 4.967) nadert.

Naast code kan GLM-5 direct .docx, .pdf en .xlsx bestanden genereren — voorstellen, financiële rapporten, spreadsheets — kant-en-klaar geleverd. Z.ai implementeert een Agent-modus met ingebouwde vaardigheden voor documentcreatie, die samenwerking in meerdere beurten ondersteunt.

De modelgewichten worden gepubliceerd op Hugging Face onder MIT-licentie. GLM-5 is compatibel met Claude Code en OpenClaw, en beschikbaar op OpenRouter. De uitrol is progressief, beginnend met Coding Plan Max-abonnees.

🔗 Technische blog GLM-5 🔗 Aankondiging op X

Anthropic publiceert eerste ASL-4 sabotage risicorapport

11 februari — Anthropic publiceert een sabotage risicorapport voor Claude Opus 4.6, vooruitlopend op de ASL-4 (AI Safety Level 4) veiligheidsdrempel voor autonome AI R&D.

Bij de release van Claude Opus 4.5 had Anthropic zich ertoe verbonden om sabotage risicorapporten te schrijven voor elk nieuw frontier model. In plaats van te navigeren door vage drempels, koos het bedrijf ervoor om proactief de hogere ASL-4 veiligheidsstandaard te respecteren.

Element	Detail
Geëvalueerd model	Claude Opus 4.6
Veiligheidsdrempel	ASL-4 (AI Safety Level 4)
Domein	Autonome AI R&D
Formaat	Openbaar PDF-rapport
Precedent	Verbintenis aangegaan tijdens lancering Opus 4.5

Dit is een belangrijke stap in de transparantie van AI-veiligheid: Anthropic is een van de eerste laboratoria die een dergelijk sabotagerapport publiceert voor een model in productie.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇳🇱 Toen we Claude Opus 4.5 uitbrachten, wisten we dat toekomstige modellen dicht bij onze AI Safety Level 4-drempel voor autonome AI R&D zouden liggen. We hebben ons daarom verplicht om sabotage risicorapporten te schrijven voor toekomstige frontier modellen. Vandaag komen we die belofte na voor Claude Opus 4.6. — @AnthropicAI op X

🔗 Anthropic Thread

OpenAI: nieuwe agentic primitives in de Responses API

10 februari — OpenAI introduceert drie nieuwe primitives in de Responses API voor langdurig agentic werk.

Server-side compaction

Maakt agent-sessies van meerdere uren mogelijk zonder contextlimieten te bereiken. De compactie wordt aan de serverzijde beheerd. Triple Whale, een early access-tester, meldt dat ze 150 tool calls en 5 miljoen tokens in één sessie hebben uitgevoerd zonder verlies van precisie.

Containers with networking

Containers gehost door OpenAI kunnen nu op een gecontroleerde manier toegang krijgen tot internet. Beheerders definiëren een whitelist van domeinen in het dashboard, verzoeken moeten expliciet een network_policy definiëren, en domeingeheimen kunnen worden geïnjecteerd zonder ruwe waarden bloot te stellen aan het model.

Skills in the API

Native ondersteuning van de Agent Skills-standaard met een eerste vooraf gebouwde vaardigheid (spreadsheets). Skills zijn herbruikbare en geversioneerde bundels die kunnen worden gemount in gehoste shell-omgevingen, en modellen beslissen tijdens runtime of ze deze moeten aanroepen.

Primitive	Beschrijving	Status
Server-side compaction	Meeruursessies zonder contextlimieten	Beschikbaar
Containers with networking	Gecontroleerde internettoegang voor gehoste containers	Beschikbaar
Skills in the API	Herbruikbare bundels (eerste vaardigheid: spreadsheets)	Beschikbaar

🔗 OpenAIDevs Thread

Kimi Agent Swarm: orkestratie van 100 sub-agenten

10 februari — Kimi (Moonshot AI) onthult Agent Swarm, een multi-agent coördinatiecapaciteit die het mogelijk maakt om complexe taken te parallelliseren met maximaal 100 gespecialiseerde sub-agenten.

Het systeem kan meer dan 1.500 tool calls uitvoeren en bereikt een snelheid die 4,5x hoger is dan sequentiële uitvoeringen. De use cases omvatten gelijktijdige generatie van meerdere bestanden (Word, Excel, PDF’s), parallelle inhoudsanalyse en creatieve generatie in meerdere stijlen parallel. Agent Swarm lost een structurele limiet van LLM’s op: de degradatie van redeneren tijdens lange taken die de context vullen.

🔗 Kimi Aankondiging

OpenAI Harness Engineering: nul regels handmatige code met Codex

11 februari — OpenAI publiceert feedback over het bouwen van een intern softwareproduct met nul regels code die handmatig zijn geschreven. Gedurende 5 maanden gebruikte een team van 3 tot 7 ingenieurs uitsluitend Codex om alle code te genereren.

Metriek	Waarde
Gegenereerde regels code	~1 miljoen
Pull requests	~1.500
PR’s per ingenieur per dag	3,5 gemiddeld
Interne gebruikers	Enkele honderden
Geschatte tijd	1/10e van de tijd die met de hand nodig is
Codex-sessies	Tot 6+ uur

De “Harness Engineering”-aanpak herdefinieert de rol van de ingenieur: omgevingen ontwerpen, intentie specificeren en feedbacklussen bouwen voor agenten, in plaats van code te schrijven. De gestructureerde documentatie in de repo dient als gids (AGENTS.md als inhoudsopgave), de architectuur is rigide met linters en structurele tests gegenereerd door Codex, en terugkerende taken scannen op afwijkingen en openen automatisch refactoring PR’s.

🔗 Blog Harness Engineering

Runway haalt 315 miljoen dollar op in Series E

10 februari — Runway kondigt een Series E-fondsenwerving aan van 315 miljoen dollar, wat de waardering op 5,3 miljard dollar brengt. De ronde wordt geleid door General Atlantic, met deelname van NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein en anderen.

Detail	Waarde
Bedrag	$315M
Serie	E
Waardering	$5,3 miljard (vs$ 3,3 miljard in Series D)
Hoofdinvesteerder	General Atlantic
Totaal opgehaald sinds 2018	$860M

De fondsen zullen worden gebruikt om de volgende generatie “world models” voor te trainen — modellen die in staat zijn om de fysieke wereld te simuleren — en deze in te zetten in nieuwe producten en industrieën. Deze aankondiging komt na de lancering van Gen-4.5, het nieuwste videogeneratiemodel van Runway.

🔗 Officiële Aankondiging 🔗 Runway Post op X

Cowork beschikbaar op Windows

10 februari — Claude Cowork, de desktopapplicatie voor taken in meerdere stappen, is nu beschikbaar op Windows in research preview met volledige functiepariteit in vergelijking met macOS.

Functie	Beschrijving
Bestandstoegang	Lezen en schrijven van lokale bestanden
Plugins	Ondersteuning voor Cowork-plugins
MCP-connectoren	Integratie met MCP-servers
Instructies per map	Stijl Claude.md — instructies in natuurlijke taal per project

Cowork op Windows is beschikbaar voor alle betaalde Claude-plannen via claude.com/cowork.

🔗 Aankondiging Cowork Windows

Gratis functies in het gratis Claude-abonnement

11 februari — Anthropic breidt de functies uit die toegankelijk zijn in het gratis Claude-abonnement. Bestandscreatie, connectoren, vaardigheden en compactie zijn nu beschikbaar zonder abonnement. Compactie stelt Claude in staat om de vorige context automatisch samen te vatten, zodat lange gesprekken kunnen doorgaan zonder opnieuw te beginnen.

🔗 Aankondiging gratis abonnement

Claude Code Plan Mode in Slack

11 februari — De Claude Code-integratie in Slack krijgt de Plan Mode. Wanneer je Claude een codetaak geeft in Slack, kan hij nu een plan opstellen voordat hij het uitvoert, waardoor de aanpak vóór implementatie kan worden gevalideerd.

Functie	Beschrijving
Plan Mode	Opstellen van een plan vóór uitvoering
Automatische detectie	Intelligente routing tussen code en chat
PR-creatie	Knop “Create PR” direct vanuit Slack
Vereisten	Pro, Max, Team of Enterprise Plan + GitHub verbonden

🔗 Thread Boris Cherny

ElevenLabs lanceert Expressieve Modus voor zijn stemagenten

10 februari — ElevenLabs onthult Expressive Mode voor ElevenAgents, een evolutie die zijn AI-stemagenten in staat stelt hun toon, emotie en nadruk in realtime aan te passen.

De modus is gebaseerd op Eleven v3 Conversational, een stemsynthesemodel geoptimaliseerd voor realtime dialoog, gekoppeld aan een nieuw beurtwisselingssysteem dat onderbrekingen vermindert. De prijs blijft op $0,08 per minuut. Tegelijkertijd herstructureert ElevenLabs zijn platform in drie productfamilies: ElevenAgents (stemagenten), ElevenCreative (creatieve tools) en ElevenAPI (ontwikkelaarsplatform).

🔗 Blog Expressive Mode

Kimi K2.5 geïntegreerd op Qoder

9 februari — Qoder (AI-platform voor ontwikkelaars) implementeert Kimi K2.5 als vlaggenschipmodel van zijn marktplaats, met een SWE-bench Verified score van 76,8% en een voordelig tarief (0,3x tegoed in Efficient tier). De aanbevolen workflow: gebruik zware modellen voor ontwerp en architectuur, en vervolgens K2.5 voor de implementatie.

🔗 Aankondiging Qoder

Wat dit betekent

Open-source blijft snel vooruitgang boeken richting frontier modellen. GLM-5 van Z.ai verkleint het gat met Claude Opus 4.5 en GPT-5.2 op benchmarks voor coding en agentic taken, terwijl het beschikbaar is onder MIT-licentie. De publicatie van het ASL-4 sabotagerapport door Anthropic schept een precedent voor veiligheidstransparantie dat andere laboratoria waarschijnlijk zullen moeten volgen.

Aan de ontwikkelaarskant schetsen de agentic primitives van OpenAI (server-side compactie, netwerkcontainers, API-vaardigheden) en de “Harness Engineering”-aanpak een toekomst waarin autonome agenten sessies van meerdere uren beheren. Kimi Agent Swarm duwt deze logica nog verder met de orkestratie van honderden parallelle sub-agenten.