Zoeken

GLM-5 open-source, Sabotage Risk Report ASL-4, OpenAI lanceert agentic primitives

GLM-5 open-source, Sabotage Risk Report ASL-4, OpenAI lanceert agentic primitives

Z.ai lanceert GLM-5, zijn nieuwe open-source flagshipmodel met 744 miljard parameters onder MIT-licentie, dat de eerste plaats inneemt bij open-source modellen voor coding en agentic taken. Anthropic publiceert een ASL-4 sabotage risicorapport voor Opus 4.6, OpenAI verrijkt zijn API met agentic primitives, en Kimi onthult een systeem van 100 parallelle sub-agenten. Aan de ecosysteemkant haalt Runway 315 miljoen dollar op en lanceert ElevenLabs een expressieve modus voor zijn stemagenten.


Z.ai lanceert GLM-5: 744B parameters, open-source onder MIT-licentie

11 februari — Z.ai (Zhipu AI) lanceert GLM-5, zijn nieuwe frontier model ontworpen voor complexe systeemtechniek en langdurige agentic taken. In vergelijking met GLM-4.5 groeit het model van 355B parameters (32B actief) naar 744B parameters (40B actief), waarbij de pre-trainingsdata toenemen van 23T naar 28,5T tokens.

GLM-5 integreert DeepSeek Sparse Attention (DSA) om de implementatiekosten te verlagen met behoud van lange contextcapaciteit, en introduceert “slime”, een asynchrone reinforcement learning-infrastructuur die de post-training doorvoer verbetert.

BenchmarkGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77,8%73,8%76,8%80,9%76,2%
HLE (text)30,524,831,528,437,2
HLE w/ Tools50,442,851,843,445,8
Terminal-Bench 2.056,241,050,859,354,2
Vending Bench 2$4.432$2.377$1.198$4.967$5.478

GLM-5 positioneert zich als het beste open-source model voor redeneren, coding en agentic taken, en dicht het gat met propriëtaire frontier modellen. Op Vending Bench 2, een benchmark die het beheer van een verkoopautomaat gedurende een jaar simuleert, eindigt GLM-5 met een saldo van 4.432,waarmeehetClaudeOpus4.5(4.432, waarmee het Claude Opus 4.5 (4.967) nadert.

Naast code kan GLM-5 direct .docx, .pdf en .xlsx bestanden genereren — voorstellen, financiële rapporten, spreadsheets — kant-en-klaar geleverd. Z.ai implementeert een Agent-modus met ingebouwde vaardigheden voor documentcreatie, die samenwerking in meerdere beurten ondersteunt.

De modelgewichten worden gepubliceerd op Hugging Face onder MIT-licentie. GLM-5 is compatibel met Claude Code en OpenClaw, en beschikbaar op OpenRouter. De uitrol is progressief, beginnend met Coding Plan Max-abonnees.

🔗 Technische blog GLM-5 🔗 Aankondiging op X


Anthropic publiceert eerste ASL-4 sabotage risicorapport

11 februari — Anthropic publiceert een sabotage risicorapport voor Claude Opus 4.6, vooruitlopend op de ASL-4 (AI Safety Level 4) veiligheidsdrempel voor autonome AI R&D.

Bij de release van Claude Opus 4.5 had Anthropic zich ertoe verbonden om sabotage risicorapporten te schrijven voor elk nieuw frontier model. In plaats van te navigeren door vage drempels, koos het bedrijf ervoor om proactief de hogere ASL-4 veiligheidsstandaard te respecteren.

ElementDetail
Geëvalueerd modelClaude Opus 4.6
VeiligheidsdrempelASL-4 (AI Safety Level 4)
DomeinAutonome AI R&D
FormaatOpenbaar PDF-rapport
PrecedentVerbintenis aangegaan tijdens lancering Opus 4.5

Dit is een belangrijke stap in de transparantie van AI-veiligheid: Anthropic is een van de eerste laboratoria die een dergelijk sabotagerapport publiceert voor een model in productie.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇳🇱 Toen we Claude Opus 4.5 uitbrachten, wisten we dat toekomstige modellen dicht bij onze AI Safety Level 4-drempel voor autonome AI R&D zouden liggen. We hebben ons daarom verplicht om sabotage risicorapporten te schrijven voor toekomstige frontier modellen. Vandaag komen we die belofte na voor Claude Opus 4.6.@AnthropicAI op X

🔗 Anthropic Thread


OpenAI: nieuwe agentic primitives in de Responses API

10 februari — OpenAI introduceert drie nieuwe primitives in de Responses API voor langdurig agentic werk.

Server-side compaction

Maakt agent-sessies van meerdere uren mogelijk zonder contextlimieten te bereiken. De compactie wordt aan de serverzijde beheerd. Triple Whale, een early access-tester, meldt dat ze 150 tool calls en 5 miljoen tokens in één sessie hebben uitgevoerd zonder verlies van precisie.

Containers with networking

Containers gehost door OpenAI kunnen nu op een gecontroleerde manier toegang krijgen tot internet. Beheerders definiëren een whitelist van domeinen in het dashboard, verzoeken moeten expliciet een network_policy definiëren, en domeingeheimen kunnen worden geïnjecteerd zonder ruwe waarden bloot te stellen aan het model.

Skills in the API

Native ondersteuning van de Agent Skills-standaard met een eerste vooraf gebouwde vaardigheid (spreadsheets). Skills zijn herbruikbare en geversioneerde bundels die kunnen worden gemount in gehoste shell-omgevingen, en modellen beslissen tijdens runtime of ze deze moeten aanroepen.

PrimitiveBeschrijvingStatus
Server-side compactionMeeruursessies zonder contextlimietenBeschikbaar
Containers with networkingGecontroleerde internettoegang voor gehoste containersBeschikbaar
Skills in the APIHerbruikbare bundels (eerste vaardigheid: spreadsheets)Beschikbaar

🔗 OpenAIDevs Thread


Kimi Agent Swarm: orkestratie van 100 sub-agenten

10 februari — Kimi (Moonshot AI) onthult Agent Swarm, een multi-agent coördinatiecapaciteit die het mogelijk maakt om complexe taken te parallelliseren met maximaal 100 gespecialiseerde sub-agenten.

Het systeem kan meer dan 1.500 tool calls uitvoeren en bereikt een snelheid die 4,5x hoger is dan sequentiële uitvoeringen. De use cases omvatten gelijktijdige generatie van meerdere bestanden (Word, Excel, PDF’s), parallelle inhoudsanalyse en creatieve generatie in meerdere stijlen parallel. Agent Swarm lost een structurele limiet van LLM’s op: de degradatie van redeneren tijdens lange taken die de context vullen.

🔗 Kimi Aankondiging


OpenAI Harness Engineering: nul regels handmatige code met Codex

11 februari — OpenAI publiceert feedback over het bouwen van een intern softwareproduct met nul regels code die handmatig zijn geschreven. Gedurende 5 maanden gebruikte een team van 3 tot 7 ingenieurs uitsluitend Codex om alle code te genereren.

MetriekWaarde
Gegenereerde regels code~1 miljoen
Pull requests~1.500
PR’s per ingenieur per dag3,5 gemiddeld
Interne gebruikersEnkele honderden
Geschatte tijd1/10e van de tijd die met de hand nodig is
Codex-sessiesTot 6+ uur

De “Harness Engineering”-aanpak herdefinieert de rol van de ingenieur: omgevingen ontwerpen, intentie specificeren en feedbacklussen bouwen voor agenten, in plaats van code te schrijven. De gestructureerde documentatie in de repo dient als gids (AGENTS.md als inhoudsopgave), de architectuur is rigide met linters en structurele tests gegenereerd door Codex, en terugkerende taken scannen op afwijkingen en openen automatisch refactoring PR’s.

🔗 Blog Harness Engineering


Runway haalt 315 miljoen dollar op in Series E

10 februari — Runway kondigt een Series E-fondsenwerving aan van 315 miljoen dollar, wat de waardering op 5,3 miljard dollar brengt. De ronde wordt geleid door General Atlantic, met deelname van NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein en anderen.

DetailWaarde
Bedrag$315M
SerieE
Waardering5,3miljard(vs5,3 miljard (vs 3,3 miljard in Series D)
HoofdinvesteerderGeneral Atlantic
Totaal opgehaald sinds 2018$860M

De fondsen zullen worden gebruikt om de volgende generatie “world models” voor te trainen — modellen die in staat zijn om de fysieke wereld te simuleren — en deze in te zetten in nieuwe producten en industrieën. Deze aankondiging komt na de lancering van Gen-4.5, het nieuwste videogeneratiemodel van Runway.

🔗 Officiële Aankondiging 🔗 Runway Post op X


Cowork beschikbaar op Windows

10 februari — Claude Cowork, de desktopapplicatie voor taken in meerdere stappen, is nu beschikbaar op Windows in research preview met volledige functiepariteit in vergelijking met macOS.

FunctieBeschrijving
BestandstoegangLezen en schrijven van lokale bestanden
PluginsOndersteuning voor Cowork-plugins
MCP-connectorenIntegratie met MCP-servers
Instructies per mapStijl Claude.md — instructies in natuurlijke taal per project

Cowork op Windows is beschikbaar voor alle betaalde Claude-plannen via claude.com/cowork.

🔗 Aankondiging Cowork Windows


Gratis functies in het gratis Claude-abonnement

11 februari — Anthropic breidt de functies uit die toegankelijk zijn in het gratis Claude-abonnement. Bestandscreatie, connectoren, vaardigheden en compactie zijn nu beschikbaar zonder abonnement. Compactie stelt Claude in staat om de vorige context automatisch samen te vatten, zodat lange gesprekken kunnen doorgaan zonder opnieuw te beginnen.

🔗 Aankondiging gratis abonnement


Claude Code Plan Mode in Slack

11 februari — De Claude Code-integratie in Slack krijgt de Plan Mode. Wanneer je Claude een codetaak geeft in Slack, kan hij nu een plan opstellen voordat hij het uitvoert, waardoor de aanpak vóór implementatie kan worden gevalideerd.

FunctieBeschrijving
Plan ModeOpstellen van een plan vóór uitvoering
Automatische detectieIntelligente routing tussen code en chat
PR-creatieKnop “Create PR” direct vanuit Slack
VereistenPro, Max, Team of Enterprise Plan + GitHub verbonden

🔗 Thread Boris Cherny


ElevenLabs lanceert Expressieve Modus voor zijn stemagenten

10 februari — ElevenLabs onthult Expressive Mode voor ElevenAgents, een evolutie die zijn AI-stemagenten in staat stelt hun toon, emotie en nadruk in realtime aan te passen.

De modus is gebaseerd op Eleven v3 Conversational, een stemsynthesemodel geoptimaliseerd voor realtime dialoog, gekoppeld aan een nieuw beurtwisselingssysteem dat onderbrekingen vermindert. De prijs blijft op $0,08 per minuut. Tegelijkertijd herstructureert ElevenLabs zijn platform in drie productfamilies: ElevenAgents (stemagenten), ElevenCreative (creatieve tools) en ElevenAPI (ontwikkelaarsplatform).

🔗 Blog Expressive Mode


Kimi K2.5 geïntegreerd op Qoder

9 februari — Qoder (AI-platform voor ontwikkelaars) implementeert Kimi K2.5 als vlaggenschipmodel van zijn marktplaats, met een SWE-bench Verified score van 76,8% en een voordelig tarief (0,3x tegoed in Efficient tier). De aanbevolen workflow: gebruik zware modellen voor ontwerp en architectuur, en vervolgens K2.5 voor de implementatie.

🔗 Aankondiging Qoder


Wat dit betekent

Open-source blijft snel vooruitgang boeken richting frontier modellen. GLM-5 van Z.ai verkleint het gat met Claude Opus 4.5 en GPT-5.2 op benchmarks voor coding en agentic taken, terwijl het beschikbaar is onder MIT-licentie. De publicatie van het ASL-4 sabotagerapport door Anthropic schept een precedent voor veiligheidstransparantie dat andere laboratoria waarschijnlijk zullen moeten volgen.

Aan de ontwikkelaarskant schetsen de agentic primitives van OpenAI (server-side compactie, netwerkcontainers, API-vaardigheden) en de “Harness Engineering”-aanpak een toekomst waarin autonome agenten sessies van meerdere uren beheren. Kimi Agent Swarm duwt deze logica nog verder met de orkestratie van honderden parallelle sub-agenten.


Bronnen