Sök

GLM-5 open-source, Sabotage Risk Report ASL-4, OpenAI lanserar agentiska primitiver

GLM-5 open-source, Sabotage Risk Report ASL-4, OpenAI lanserar agentiska primitiver

Z.ai lanserar GLM-5, sin nya open-source flaggskeppsmodell med 744 miljarder parametrar under MIT-licens, som klättrar till förstaplatsen bland open-source-modeller inom kodning och agentiska uppgifter. Anthropic publicerar en sabotageriskrapport enligt ASL-4 för Opus 4.6, OpenAI berikar sitt API med agentiska primitiver, och Kimi avslöjar ett system med 100 parallella underagenter. På ekosystemsidan tar Runway in 315 miljoner dollar och ElevenLabs lanserar ett uttrycksfullt läge för sina röstagenter.


Z.ai lanserar GLM-5: 744B parametrar, open-source under MIT-licens

11 februari — Z.ai (Zhipu AI) lanserar GLM-5, sin nya frontiermodell designad för komplex systemteknik och långvariga agentiska uppgifter. Jämfört med GLM-4.5 växer modellen från 355B parametrar (32B aktiva) till 744B parametrar (40B aktiva), med förträningsdata som ökar från 23T till 28,5T tokens.

GLM-5 integrerar DeepSeek Sparse Attention (DSA) för att minska driftsättningskostnader samtidigt som förmågan för lång kontext bevaras, och introducerar “slime”, en asynkron infrastruktur för förstärkningsinlärning som förbättrar genomströmningen efter träning.

BenchmarkGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77,8%73,8%76,8%80,9%76,2%
HLE (text)30,524,831,528,437,2
HLE w/ Tools50,442,851,843,445,8
Terminal-Bench 2.056,241,050,859,354,2
Vending Bench 2$4 432$2 377$1 198$4 967$5 478

GLM-5 positionerar sig som den bästa open-source-modellen inom resonemang, kodning och agentiska uppgifter, och minskar gapet till proprietära frontiermodeller. På Vending Bench 2, ett benchmark som simulerar hanteringen av en varuautomat under ett år, slutar GLM-5 med ett saldo på 4432,vilketna¨rmarsigClaudeOpus4.5(4 432, vilket närmar sig Claude Opus 4.5 (4 967).

Utöver kod kan GLM-5 direkt generera .docx, .pdf och .xlsx-filer — offerter, finansiella rapporter, kalkylblad — levererade nyckelfärdiga. Z.ai driftsätter ett Agent-läge med inbyggda färdigheter för dokumentskapande, vilket stöder samarbete i flera turer.

Modellvikterna publiceras på Hugging Face under MIT-licens. GLM-5 är kompatibel med Claude Code och OpenClaw, och tillgänglig på OpenRouter. Driftsättningen är progressiv och börjar med Coding Plan Max-prenumeranter.

🔗 GLM-5 Teknisk Blogg 🔗 Tillkännagivande på X


Anthropic publicerar första ASL-4 sabotageriskrapport

11 februari — Anthropic publicerar en sabotageriskrapport för Claude Opus 4.6, i väntan på säkerhetströskeln ASL-4 (AI Safety Level 4) för autonom AI FoU.

Vid lanseringen av Claude Opus 4.5 åtog sig Anthropic att skriva sabotageriskrapporter för varje ny frontiermodell. Istället för att navigera bland vaga trösklar valde företaget att proaktivt respektera den högre säkerhetsstandarden ASL-4.

ElementDetalj
Utvärderad modellClaude Opus 4.6
SäkerhetströskelASL-4 (AI Safety Level 4)
DomänAutonom AI FoU
FormatOffentlig PDF-rapport
PrejudikatÅtagande gjort under lanseringen av Opus 4.5

Detta är ett betydande steg i transparensen kring AI-säkerhet: Anthropic är ett av de första laboratorierna som publicerar en sådan sabotagerapport för en modell i produktion.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇸🇪 När vi släppte Claude Opus 4.5 visste vi att framtida modeller skulle ligga nära vår tröskel AI Safety Level 4 för autonom AI FoU. Vi åtog oss därför att skriva sabotageriskrapporter för framtida frontiermodeller. Idag uppfyller vi det åtagandet för Claude Opus 4.6.@AnthropicAI på X

🔗 Anthropic Tråd


OpenAI: nya agentiska primitiver i Responses API

10 februari — OpenAI introducerar tre nya primitiver i Responses API för långvarigt agentiskt arbete.

Server-side compaction

Möjliggör agentsessioner på flera timmar utan att nå kontextgränserna. Kompakteringen hanteras på serversidan. Triple Whale, en testare med tidig åtkomst, rapporterar att de har genomfört 150 verktygsanrop och 5 miljoner tokens i en enda session utan precisionsförlust.

Containers med nätverk

Containrar som hostas av OpenAI kan nu få tillgång till internet på ett kontrollerat sätt. Administratörer definierar en vitlista med domäner i dashboarden, förfrågningar måste explicit definiera en network_policy, och domänhemligheter kan injiceras utan att exponera råa värden för modellen.

Skills i API:et

Inbyggt stöd för standarden Agent Skills med en första förbyggd färdighet (kalkylblad). Färdigheter är återanvändbara och versionshanterade paket som kan monteras i hostade skalmiljöer, och modeller bestämmer vid körning om de ska anropas.

PrimitivBeskrivningStatus
Server-side compactionFlerimmarssessioner utan kontextgränserTillgänglig
Containers med nätverkKontrollerad internetåtkomst för hostade containrarTillgänglig
Skills i API:etÅteranvändbara paket (första färdighet: kalkylblad)Tillgänglig

🔗 OpenAIDevs Tråd


Kimi Agent Swarm: orkestrering av 100 underagenter

10 februari — Kimi (Moonshot AI) avslöjar Agent Swarm, en förmåga för multi-agent-koordinering som gör det möjligt att parallellisera komplexa uppgifter med upp till 100 specialiserade underagenter.

Systemet kan utföra mer än 1 500 verktygsanrop och når en hastighet som är 4,5 gånger högre än sekventiella körningar. Användningsfallen täcker samtidig generering av flera filer (Word, Excel, PDF:er), parallell innehållsanalys och kreativ generering i flera stilar parallellt. Agent Swarm löser en strukturell gräns hos LLM:er: försämringen av resonemang under långa uppgifter som fyller kontexten.

🔗 Kimi Tillkännagivande


OpenAI Harness Engineering: noll rader manuell kod med Codex

11 februari — OpenAI publicerar erfarenheter från byggandet av en intern mjukvaruprodukt med noll rader kod skriven manuellt. Under 5 månader använde ett team på 3 till 7 ingenjörer uteslutande Codex för att generera all kod.

MätvärdeVärde
Genererade kodrader~1 miljon
Pull requests~1 500
PR per ingenjör per dag3,5 i genomsn
Interna användareFlera hundra
Beräknad tid1/10 av tiden som krävs för hand
Codex-sessionerUpp till 6+ timmar

Metoden “Harness Engineering” omdefinierar ingenjörens roll: att designa miljöer, specificera avsikt och bygga feedbackloopar för agenter, snarare än att skriva kod. Dokumentationen strukturerad i repot fungerar som en guide (AGENTS.md som innehållsförteckning), arkitekturen är rigid med linters och strukturella tester genererade av Codex, och återkommande uppgifter skannar efter avvikelser och öppnar refaktorerings-PR:s automatiskt.

🔗 Harness Engineering Blogg


Runway tar in 315 miljoner dollar i Serie E

10 februari — Runway tillkännager en Serie E-finansiering på 315 miljoner dollar, vilket tar värderingen till 5,3 miljarder dollar. Rundan leds av General Atlantic, med deltagande av NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein och andra.

DetaljVärde
Belopp315 M$
SerieE
Värdering5,3 Mdr(vs3,3Mdr (vs 3,3 Mdr i Serie D)
HuvudinvesterareGeneral Atlantic
Totalt insamlat sedan 2018860 M$

Medlen kommer att användas för att förträna nästa generation av “world models” — modeller som kan simulera den fysiska världen — och driftsätta dem i nya produkter och branscher. Detta tillkännagivande kommer efter lanseringen av Gen-4.5, Runways senaste videogenereringsmodell.

🔗 Officiellt Tillkännagivande 🔗 Runway Inlägg på X


Cowork tillgängligt på Windows

10 februari — Claude Cowork, skrivbordsapplikationen för flerstegsuppgifter, är nu tillgänglig på Windows i research preview med full funktionsparitet jämfört med macOS.

FunktionBeskrivning
FilåtkomstLäsning och skrivning av lokala filer
PluginsStöd för Cowork-plugins
MCP-kopplingarIntegration med MCP-servrar
Instruktioner per mappStil Claude.md — instruktioner på naturligt språk per projekt

Cowork på Windows är tillgängligt för alla betalda Claude-planer via claude.com/cowork.

🔗 Cowork Windows Tillkännagivande


Gratis funktioner i Claude gratisplan

11 februari — Anthropic utökar funktionerna som är tillgängliga i Claudes gratisplan. Filskapande, kopplingar, färdigheter och kompaktering är nu tillgängliga utan prenumeration. Kompaktering gör att Claude automatiskt kan sammanfatta tidigare kontext så att långa konversationer kan fortsätta utan att starta om.

🔗 Gratisplan Tillkännagivande


Claude Code Plan Mode i Slack

11 februari — Claude Code-integrationen i Slack får Plan Mode. När man ger Claude en koduppgift i Slack kan den nu utarbeta en plan innan den exekverar, vilket gör det möjligt att validera tillvägagångssättet före implementering.

FunktionBeskrivning
Plan ModeUtarbetande av en plan före exekvering
Automatisk detekteringIntelligent routing mellan kod och chatt
PR-skapandeKnapp “Create PR” direkt från Slack
FörutsättningarPlan Pro, Max, Team eller Enterprise + ansluten GitHub

🔗 Boris Cherny Tråd


ElevenLabs lanserar Uttrycksfullt Läge för sina röstagenter

10 februari — ElevenLabs avslöjar Expressive Mode för ElevenAgents, en utveckling som gör dess AI-röstagenter kapabla att anpassa sin ton, känsla och betoning i realtid.

Läget bygger på Eleven v3 Conversational, en röstsyntesmodell optimerad för dialog i realtid, kopplad till ett nytt system för turtagning som minskar avbrott. Priset ligger kvar på 0,08 $ per minut. Parallellt omstrukturerar ElevenLabs sin plattform i tre produktfamiljer: ElevenAgents (röstagenter), ElevenCreative (kreativa verktyg) och ElevenAPI (utvecklarplattform).

🔗 Blogg Expressive Mode


Kimi K2.5 integrerad på Qoder

9 februari — Qoder (AI-plattform för utvecklare) driftsätter Kimi K2.5 som flaggskeppsmodell på sin marknadsplats, med ett SWE-bench Verified-resultat på 76,8% och ett fördelaktigt pris (0,3x kredit i Efficient-nivån). Det rekommenderade arbetsflödet: använd tunga modeller för design och arkitektur, sedan K2.5 för implementering.

🔗 Qoder Tillkännagivande


Vad detta innebär

Open-source fortsätter att göra snabba framsteg mot frontiermodeller. GLM-5 från Z.ai minskar gapet till Claude Opus 4.5 och GPT-5.2 på benchmarks för kodning och agentiska uppgifter, samtidigt som den är tillgänglig under MIT-licens. Publiceringen av sabotagerapporten ASL-4 av Anthropic sätter ett prejudikat för transparens kring säkerhet som andra laboratorier sannolikt kommer att tvingas följa.

På utvecklarsidan ritar OpenAIs agentiska primitiver (server-side compaction, nätverkscontainrar, API-färdigheter) och metoden “Harness Engineering” upp en framtid där autonoma agenter hanterar flerimmarssessioner. Kimi Agent Swarm driver denna logik ännu längre med orkestrering av hundratals underagenter parallellt.


Källor