Suchen

GLM-5 Open-Source, Sabotage-Risikobericht ASL-4, OpenAI führt agentische Primitive ein

GLM-5 Open-Source, Sabotage-Risikobericht ASL-4, OpenAI führt agentische Primitive ein

Z.ai bringt GLM-5 auf den Markt, sein neues Open-Source-Flaggschiffmodell mit 744 Milliarden Parametern unter MIT-Lizenz, das bei Coding- und agentischen Aufgaben den ersten Platz der Open-Source-Modelle einnimmt. Anthropic veröffentlicht einen Sabotage-Risikobericht ASL-4 für Opus 4.6, OpenAI bereichert seine API um agentische Primitive und Kimi enthüllt ein System von 100 parallelen Sub-Agenten. Auf der Ökosystemseite sammelt Runway 315 Millionen Dollar ein und ElevenLabs führt einen expressiven Modus für seine Sprachagenten ein.


Z.ai führt GLM-5 ein: 744B Parameter, Open-Source unter MIT-Lizenz

11. Februar — Z.ai (Zhipu AI) führt GLM-5 ein, sein neues Frontier-Modell, das für komplexe Systemtechnik und lang andauernde agentische Aufgaben entwickelt wurde. Im Vergleich zu GLM-4.5 wächst das Modell von 355B Parametern (32B aktiv) auf 744B Parameter (40B aktiv), wobei die Pre-Training-Daten von 23T auf 28,5T Token steigen.

GLM-5 integriert DeepSeek Sparse Attention (DSA), um die Bereitstellungskosten zu senken und gleichzeitig die Langzeit-Kontextfähigkeit zu erhalten, und führt “slime” ein, eine asynchrone Reinforcement-Learning-Infrastruktur, die den Durchsatz nach dem Training verbessert.

BenchmarkGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77,8%73,8%76,8%80,9%76,2%
HLE (text)30,524,831,528,437,2
HLE w/ Tools50,442,851,843,445,8
Terminal-Bench 2.056,241,050,859,354,2
Vending Bench 2$4.432$2.377$1.198$4.967$5.478

GLM-5 positioniert sich als das beste Open-Source-Modell für Reasoning, Coding und agentische Aufgaben und schließt die Lücke zu proprietären Frontier-Modellen. Beim Vending Bench 2, einem Benchmark, der die Verwaltung eines Verkaufsautomaten über ein Jahr simuliert, beendet GLM-5 mit einem Saldo von 4.432undna¨hertsichdamitClaudeOpus4.5(4.432 und nähert sich damit Claude Opus 4.5 (4.967).

Über Code hinaus kann GLM-5 direkt .docx, .pdf und .xlsx Dateien generieren — Angebote, Finanzberichte, Tabellenkalkulationen — schlüsselfertig geliefert. Z.ai stellt einen Agentenmodus mit integrierten Fähigkeiten zur Dokumentenerstellung bereit, der die Zusammenarbeit über mehrere Runden unterstützt.

Die Modellgewichte werden auf Hugging Face unter MIT-Lizenz veröffentlicht. GLM-5 ist kompatibel mit Claude Code und OpenClaw und auf OpenRouter verfügbar. Die Bereitstellung erfolgt schrittweise, beginnend mit Abonnenten des Coding Plan Max.

🔗 Technischer Blog GLM-5 🔗 Ankündigung auf X


Anthropic veröffentlicht ersten Sabotage-Risikobericht ASL-4

11. Februar — Anthropic veröffentlicht einen Sabotage-Risikobericht für Claude Opus 4.6 in Erwartung der Sicherheitsschwelle ASL-4 (AI Safety Level 4) für autonome KI-Forschung und -Entwicklung.

Bei der Veröffentlichung von Claude Opus 4.5 hatte sich Anthropic verpflichtet, für jedes neue Frontier-Modell Sabotage-Risikoberichte zu verfassen. Anstatt durch vage Schwellenwerte zu navigieren, entschied sich das Unternehmen, den höheren Sicherheitsstandard ASL-4 proaktiv zu respektieren.

ElementDetail
Bewertetes ModellClaude Opus 4.6
SicherheitsschwelleASL-4 (AI Safety Level 4)
BereichAutonome KI-F&E
FormatÖffentlicher PDF-Bericht
PräzedenzfallVerpflichtung beim Start von Opus 4.5 eingegangen

Dies ist ein bedeutender Schritt in der Transparenz der KI-Sicherheit: Anthropic ist eines der ersten Labore, das einen solchen Sabotagebericht für ein Modell in Produktion veröffentlicht.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇩🇪 Als wir Claude Opus 4.5 veröffentlichten, wussten wir, dass zukünftige Modelle nahe an unserer AI Safety Level 4 Schwelle für autonome KI-F&E liegen würden. Wir haben uns daher verpflichtet, Sabotage-Risikoberichte für zukünftige Frontier-Modelle zu schreiben. Heute erfüllen wir diese Verpflichtung für Claude Opus 4.6.@AnthropicAI auf X

🔗 Anthropic Thread


OpenAI: neue agentische Primitive in der Responses API

10. Februar — OpenAI führt drei neue Primitive in der Responses API für lang andauernde agentische Arbeit ein.

Serverseitige Komprimierung

Ermöglicht Agentensitzungen über mehrere Stunden ohne Erreichen der Kontextgrenzen. Die Komprimierung wird serverseitig verwaltet. Triple Whale, ein Tester im Vorabzugriff, berichtet, 150 Tool-Aufrufe und 5 Millionen Token in einer einzigen Sitzung ohne Präzisionsverlust durchgeführt zu haben.

Container mit Netzwerk

Von OpenAI gehostete Container können jetzt kontrolliert auf das Internet zugreifen. Administratoren definieren eine Whitelist von Domains im Dashboard, Anfragen müssen explizit eine network_policy definieren, und Domain-Geheimnisse können injiziert werden, ohne Rohwerte dem Modell offenzulegen.

Skills in der API

Native Unterstützung des Agent Skills Standards mit einem ersten vorgefertigten Skill (Tabellenkalkulationen). Skills sind wiederverwendbare und versionierte Pakete, die in gehosteten Shell-Umgebungen gemountet werden können, und Modelle entscheiden zur Laufzeit, ob sie sie aufrufen sollen.

PrimitivBeschreibungStatus
Serverseitige KomprimierungMehrstündige Sitzungen ohne KontextgrenzenVerfügbar
Container mit NetzwerkKontrollierter Internetzugang für gehostete ContainerVerfügbar
Skills in der APIWiederverwendbare Pakete (erster Skill: Tabellenkalkulationen)Verfügbar

🔗 OpenAIDevs Thread


Kimi Agent Swarm: Orchestrierung von 100 Sub-Agenten

10. Februar — Kimi (Moonshot AI) enthüllt Agent Swarm, eine Multi-Agenten-Koordinationsfähigkeit, die die Parallelisierung komplexer Aufgaben mit bis zu 100 spezialisierten Sub-Agenten ermöglicht.

Das System kann mehr als 1.500 Tool-Aufrufe ausführen und erreicht eine 4,5-mal höhere Geschwindigkeit als sequentielle Ausführungen. Die Anwendungsfälle decken die gleichzeitige Generierung mehrerer Dateien (Word, Excel, PDFs), die parallele Inhaltsanalyse und die kreative Generierung in mehreren Stilen parallel ab. Agent Swarm löst eine strukturelle Grenze von LLMs: die Verschlechterung des Denkvermögens bei langen Aufgaben, die den Kontext füllen.

🔗 Kimi Ankündigung


OpenAI Harness Engineering: null Zeilen manueller Code mit Codex

11. Februar — OpenAI veröffentlicht einen Erfahrungsbericht über den Aufbau eines internen Softwareprodukts mit null manuell geschriebenen Codezeilen. 5 Monate lang nutzte ein Team von 3 bis 7 Ingenieuren ausschließlich Codex, um den gesamten Code zu generieren.

MetrikWert
Generierte Codezeilen~1 Million
Pull Requests~1.500
PRs pro Ingenieur pro Tag3,5 im Durchschnitt
Interne NutzerMehrere Hundert
Geschätzte Zeit1/10 der manuell benötigten Zeit
Codex-SitzungenBis zu 6+ Stunden

Der Ansatz “Harness Engineering” definiert die Rolle des Ingenieurs neu: Entwerfen von Umgebungen, Spezifizieren der Absicht und Aufbauen von Feedbackschleifen für Agenten, anstatt Code zu schreiben. Die im Repo strukturierte Dokumentation dient als Leitfaden (AGENTS.md als Inhaltsverzeichnis), die Architektur ist starr mit von Codex generierten Lintern und strukturellen Tests, und wiederkehrende Aufgaben scannen nach Abweichungen und öffnen automatisch Refactoring-PRs.

🔗 Blog Harness Engineering


Runway sammelt 315 Millionen Dollar in Serie E ein

10. Februar — Runway kündigt eine Serie-E-Finanzierung von 315 Millionen Dollar an, was die Bewertung auf 5,3 Milliarden Dollar bringt. Die Runde wird von General Atlantic angeführt, unter Beteiligung von NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein und anderen.

DetailWert
Betrag315 Mio. $
SerieE
Bewertung5,3 Mrd. (vs.3,3Mrd.(vs. 3,3 Mrd. in Serie D)
HauptinvestorGeneral Atlantic
Insgesamt seit 2018 eingesammelt860 Mio. $

Die Mittel werden verwendet, um die nächste Generation von “World Models” vorzutrainieren — Modelle, die in der Lage sind, die physische Welt zu simulieren — und sie in neuen Produkten und Branchen einzusetzen. Diese Ankündigung erfolgt nach dem Start von Gen-4.5, dem neuesten Videogenerierungsmodell von Runway.

🔗 Offizielle Ankündigung 🔗 Runway Post auf X


Cowork auf Windows verfügbar

10. Februar — Claude Cowork, die Desktop-Anwendung für mehrstufige Aufgaben, ist jetzt unter Windows in der Research Preview mit vollem Funktionsumfang im Vergleich zu macOS verfügbar.

FunktionBeschreibung
DateizugriffLesen und Schreiben lokaler Dateien
PluginsUnterstützung für Cowork-Plugins
MCP-KonnektorenIntegration mit MCP-Servern
Anweisungen pro OrdnerStil Claude.md — Anweisungen in natürlicher Sprache pro Projekt

Cowork unter Windows ist für alle kostenpflichtigen Claude-Pläne über claude.com/cowork verfügbar.

🔗 Ankündigung Cowork Windows


Kostenlose Funktionen im Claude Free Plan

11. Februar — Anthropic erweitert die im kostenlosen Claude-Plan zugänglichen Funktionen. Dateierstellung, Konnektoren, Skills und Komprimierung sind jetzt ohne Abonnement verfügbar. Die Komprimierung ermöglicht es Claude, den vorherigen Kontext automatisch zusammenzufassen, sodass lange Gespräche fortgesetzt werden können, ohne neu zu beginnen.

🔗 Ankündigung Free Plan


Claude Code Plan Mode in Slack

11. Februar — Die Claude Code-Integration in Slack erhält den Plan Mode. Wenn man Claude eine Code-Aufgabe in Slack gibt, kann er jetzt vor der Ausführung einen Plan erstellen, was eine Validierung des Ansatzes vor der Implementierung ermöglicht.

FunktionBeschreibung
Plan ModeErstellung eines Plans vor der Ausführung
Automatische ErkennungIntelligentes Routing zwischen Code und Chat
PR-ErstellungButton “Create PR” direkt aus Slack
VoraussetzungenPlan Pro, Max, Team oder Enterprise + verbundenes GitHub

🔗 Thread Boris Cherny


ElevenLabs führt Expressive Mode für seine Sprachagenten ein

10. Februar — ElevenLabs enthüllt Expressive Mode für ElevenAgents, eine Weiterentwicklung, die seine KI-Sprachagenten befähigt, ihren Ton, ihre Emotion und ihre Betonung in Echtzeit anzupassen.

Der Modus basiert auf Eleven v3 Conversational, einem für Echtzeit-Dialoge optimierten Sprachsynthesemodell, gekoppelt mit einem neuen Sprechsystem, das Unterbrechungen reduziert. Der Preis bleibt bei 0,08 $ pro Minute. Parallel dazu restrukturiert ElevenLabs seine Plattform in drei Produktfamilien: ElevenAgents (Sprachagenten), ElevenCreative (kreative Tools) und ElevenAPI (Entwicklerplattform).

🔗 Blog Expressive Mode


Kimi K2.5 auf Qoder integriert

9. Februar — Qoder (KI-Plattform für Entwickler) stellt Kimi K2.5 als Flaggschiffmodell seines Marktplatzes bereit, mit einem SWE-bench Verified Score von 76,8% und einem vorteilhaften Tarif (0,3x Guthaben im Tier Efficient). Der empfohlene Workflow: Verwendung schwerer Modelle für Design und Architektur, dann K2.5 für die Implementierung.

🔗 Ankündigung Qoder


Was das bedeutet

Open-Source macht weiterhin rasche Fortschritte in Richtung Frontier-Modelle. GLM-5 von Z.ai verringert den Abstand zu Claude Opus 4.5 und GPT-5.2 bei Benchmarks für Coding und agentische Aufgaben und ist dabei unter MIT-Lizenz verfügbar. Die Veröffentlichung des Sabotageberichts ASL-4 durch Anthropic schafft einen Präzedenzfall für Transparenz in der Sicherheit, dem andere Labore wahrscheinlich folgen müssen.

Auf der Entwicklerseite zeichnen die agentischen Primitive von OpenAI (serverseitige Komprimierung, Netzwerk-Container, API-Skills) und der Ansatz “Harness Engineering” eine Zukunft, in der autonome Agenten mehrstündige Sitzungen verwalten. Kimi Agent Swarm treibt diese Logik mit der Orchestrierung von Hunderten von parallelen Sub-Agenten noch weiter voran.


Quellen