Z.ai bringt GLM-5 auf den Markt, sein neues Open-Source-Flaggschiffmodell mit 744 Milliarden Parametern unter MIT-Lizenz, das bei Coding- und agentischen Aufgaben den ersten Platz der Open-Source-Modelle einnimmt. Anthropic veröffentlicht einen Sabotage-Risikobericht ASL-4 für Opus 4.6, OpenAI bereichert seine API um agentische Primitive und Kimi enthüllt ein System von 100 parallelen Sub-Agenten. Auf der Ökosystemseite sammelt Runway 315 Millionen Dollar ein und ElevenLabs führt einen expressiven Modus für seine Sprachagenten ein.
Z.ai führt GLM-5 ein: 744B Parameter, Open-Source unter MIT-Lizenz
11. Februar — Z.ai (Zhipu AI) führt GLM-5 ein, sein neues Frontier-Modell, das für komplexe Systemtechnik und lang andauernde agentische Aufgaben entwickelt wurde. Im Vergleich zu GLM-4.5 wächst das Modell von 355B Parametern (32B aktiv) auf 744B Parameter (40B aktiv), wobei die Pre-Training-Daten von 23T auf 28,5T Token steigen.
GLM-5 integriert DeepSeek Sparse Attention (DSA), um die Bereitstellungskosten zu senken und gleichzeitig die Langzeit-Kontextfähigkeit zu erhalten, und führt “slime” ein, eine asynchrone Reinforcement-Learning-Infrastruktur, die den Durchsatz nach dem Training verbessert.
| Benchmark | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77,8% | 73,8% | 76,8% | 80,9% | 76,2% |
| HLE (text) | 30,5 | 24,8 | 31,5 | 28,4 | 37,2 |
| HLE w/ Tools | 50,4 | 42,8 | 51,8 | 43,4 | 45,8 |
| Terminal-Bench 2.0 | 56,2 | 41,0 | 50,8 | 59,3 | 54,2 |
| Vending Bench 2 | $4.432 | $2.377 | $1.198 | $4.967 | $5.478 |
GLM-5 positioniert sich als das beste Open-Source-Modell für Reasoning, Coding und agentische Aufgaben und schließt die Lücke zu proprietären Frontier-Modellen. Beim Vending Bench 2, einem Benchmark, der die Verwaltung eines Verkaufsautomaten über ein Jahr simuliert, beendet GLM-5 mit einem Saldo von 4.967).
Über Code hinaus kann GLM-5 direkt .docx, .pdf und .xlsx Dateien generieren — Angebote, Finanzberichte, Tabellenkalkulationen — schlüsselfertig geliefert. Z.ai stellt einen Agentenmodus mit integrierten Fähigkeiten zur Dokumentenerstellung bereit, der die Zusammenarbeit über mehrere Runden unterstützt.
Die Modellgewichte werden auf Hugging Face unter MIT-Lizenz veröffentlicht. GLM-5 ist kompatibel mit Claude Code und OpenClaw und auf OpenRouter verfügbar. Die Bereitstellung erfolgt schrittweise, beginnend mit Abonnenten des Coding Plan Max.
🔗 Technischer Blog GLM-5 🔗 Ankündigung auf X
Anthropic veröffentlicht ersten Sabotage-Risikobericht ASL-4
11. Februar — Anthropic veröffentlicht einen Sabotage-Risikobericht für Claude Opus 4.6 in Erwartung der Sicherheitsschwelle ASL-4 (AI Safety Level 4) für autonome KI-Forschung und -Entwicklung.
Bei der Veröffentlichung von Claude Opus 4.5 hatte sich Anthropic verpflichtet, für jedes neue Frontier-Modell Sabotage-Risikoberichte zu verfassen. Anstatt durch vage Schwellenwerte zu navigieren, entschied sich das Unternehmen, den höheren Sicherheitsstandard ASL-4 proaktiv zu respektieren.
| Element | Detail |
|---|---|
| Bewertetes Modell | Claude Opus 4.6 |
| Sicherheitsschwelle | ASL-4 (AI Safety Level 4) |
| Bereich | Autonome KI-F&E |
| Format | Öffentlicher PDF-Bericht |
| Präzedenzfall | Verpflichtung beim Start von Opus 4.5 eingegangen |
Dies ist ein bedeutender Schritt in der Transparenz der KI-Sicherheit: Anthropic ist eines der ersten Labore, das einen solchen Sabotagebericht für ein Modell in Produktion veröffentlicht.
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇩🇪 Als wir Claude Opus 4.5 veröffentlichten, wussten wir, dass zukünftige Modelle nahe an unserer AI Safety Level 4 Schwelle für autonome KI-F&E liegen würden. Wir haben uns daher verpflichtet, Sabotage-Risikoberichte für zukünftige Frontier-Modelle zu schreiben. Heute erfüllen wir diese Verpflichtung für Claude Opus 4.6. — @AnthropicAI auf X
OpenAI: neue agentische Primitive in der Responses API
10. Februar — OpenAI führt drei neue Primitive in der Responses API für lang andauernde agentische Arbeit ein.
Serverseitige Komprimierung
Ermöglicht Agentensitzungen über mehrere Stunden ohne Erreichen der Kontextgrenzen. Die Komprimierung wird serverseitig verwaltet. Triple Whale, ein Tester im Vorabzugriff, berichtet, 150 Tool-Aufrufe und 5 Millionen Token in einer einzigen Sitzung ohne Präzisionsverlust durchgeführt zu haben.
Container mit Netzwerk
Von OpenAI gehostete Container können jetzt kontrolliert auf das Internet zugreifen. Administratoren definieren eine Whitelist von Domains im Dashboard, Anfragen müssen explizit eine network_policy definieren, und Domain-Geheimnisse können injiziert werden, ohne Rohwerte dem Modell offenzulegen.
Skills in der API
Native Unterstützung des Agent Skills Standards mit einem ersten vorgefertigten Skill (Tabellenkalkulationen). Skills sind wiederverwendbare und versionierte Pakete, die in gehosteten Shell-Umgebungen gemountet werden können, und Modelle entscheiden zur Laufzeit, ob sie sie aufrufen sollen.
| Primitiv | Beschreibung | Status |
|---|---|---|
| Serverseitige Komprimierung | Mehrstündige Sitzungen ohne Kontextgrenzen | Verfügbar |
| Container mit Netzwerk | Kontrollierter Internetzugang für gehostete Container | Verfügbar |
| Skills in der API | Wiederverwendbare Pakete (erster Skill: Tabellenkalkulationen) | Verfügbar |
Kimi Agent Swarm: Orchestrierung von 100 Sub-Agenten
10. Februar — Kimi (Moonshot AI) enthüllt Agent Swarm, eine Multi-Agenten-Koordinationsfähigkeit, die die Parallelisierung komplexer Aufgaben mit bis zu 100 spezialisierten Sub-Agenten ermöglicht.
Das System kann mehr als 1.500 Tool-Aufrufe ausführen und erreicht eine 4,5-mal höhere Geschwindigkeit als sequentielle Ausführungen. Die Anwendungsfälle decken die gleichzeitige Generierung mehrerer Dateien (Word, Excel, PDFs), die parallele Inhaltsanalyse und die kreative Generierung in mehreren Stilen parallel ab. Agent Swarm löst eine strukturelle Grenze von LLMs: die Verschlechterung des Denkvermögens bei langen Aufgaben, die den Kontext füllen.
OpenAI Harness Engineering: null Zeilen manueller Code mit Codex
11. Februar — OpenAI veröffentlicht einen Erfahrungsbericht über den Aufbau eines internen Softwareprodukts mit null manuell geschriebenen Codezeilen. 5 Monate lang nutzte ein Team von 3 bis 7 Ingenieuren ausschließlich Codex, um den gesamten Code zu generieren.
| Metrik | Wert |
|---|---|
| Generierte Codezeilen | ~1 Million |
| Pull Requests | ~1.500 |
| PRs pro Ingenieur pro Tag | 3,5 im Durchschnitt |
| Interne Nutzer | Mehrere Hundert |
| Geschätzte Zeit | 1/10 der manuell benötigten Zeit |
| Codex-Sitzungen | Bis zu 6+ Stunden |
Der Ansatz “Harness Engineering” definiert die Rolle des Ingenieurs neu: Entwerfen von Umgebungen, Spezifizieren der Absicht und Aufbauen von Feedbackschleifen für Agenten, anstatt Code zu schreiben. Die im Repo strukturierte Dokumentation dient als Leitfaden (AGENTS.md als Inhaltsverzeichnis), die Architektur ist starr mit von Codex generierten Lintern und strukturellen Tests, und wiederkehrende Aufgaben scannen nach Abweichungen und öffnen automatisch Refactoring-PRs.
Runway sammelt 315 Millionen Dollar in Serie E ein
10. Februar — Runway kündigt eine Serie-E-Finanzierung von 315 Millionen Dollar an, was die Bewertung auf 5,3 Milliarden Dollar bringt. Die Runde wird von General Atlantic angeführt, unter Beteiligung von NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein und anderen.
| Detail | Wert |
|---|---|
| Betrag | 315 Mio. $ |
| Serie | E |
| Bewertung | 5,3 Mrd. in Serie D) |
| Hauptinvestor | General Atlantic |
| Insgesamt seit 2018 eingesammelt | 860 Mio. $ |
Die Mittel werden verwendet, um die nächste Generation von “World Models” vorzutrainieren — Modelle, die in der Lage sind, die physische Welt zu simulieren — und sie in neuen Produkten und Branchen einzusetzen. Diese Ankündigung erfolgt nach dem Start von Gen-4.5, dem neuesten Videogenerierungsmodell von Runway.
🔗 Offizielle Ankündigung 🔗 Runway Post auf X
Cowork auf Windows verfügbar
10. Februar — Claude Cowork, die Desktop-Anwendung für mehrstufige Aufgaben, ist jetzt unter Windows in der Research Preview mit vollem Funktionsumfang im Vergleich zu macOS verfügbar.
| Funktion | Beschreibung |
|---|---|
| Dateizugriff | Lesen und Schreiben lokaler Dateien |
| Plugins | Unterstützung für Cowork-Plugins |
| MCP-Konnektoren | Integration mit MCP-Servern |
| Anweisungen pro Ordner | Stil Claude.md — Anweisungen in natürlicher Sprache pro Projekt |
Cowork unter Windows ist für alle kostenpflichtigen Claude-Pläne über claude.com/cowork verfügbar.
Kostenlose Funktionen im Claude Free Plan
11. Februar — Anthropic erweitert die im kostenlosen Claude-Plan zugänglichen Funktionen. Dateierstellung, Konnektoren, Skills und Komprimierung sind jetzt ohne Abonnement verfügbar. Die Komprimierung ermöglicht es Claude, den vorherigen Kontext automatisch zusammenzufassen, sodass lange Gespräche fortgesetzt werden können, ohne neu zu beginnen.
Claude Code Plan Mode in Slack
11. Februar — Die Claude Code-Integration in Slack erhält den Plan Mode. Wenn man Claude eine Code-Aufgabe in Slack gibt, kann er jetzt vor der Ausführung einen Plan erstellen, was eine Validierung des Ansatzes vor der Implementierung ermöglicht.
| Funktion | Beschreibung |
|---|---|
| Plan Mode | Erstellung eines Plans vor der Ausführung |
| Automatische Erkennung | Intelligentes Routing zwischen Code und Chat |
| PR-Erstellung | Button “Create PR” direkt aus Slack |
| Voraussetzungen | Plan Pro, Max, Team oder Enterprise + verbundenes GitHub |
ElevenLabs führt Expressive Mode für seine Sprachagenten ein
10. Februar — ElevenLabs enthüllt Expressive Mode für ElevenAgents, eine Weiterentwicklung, die seine KI-Sprachagenten befähigt, ihren Ton, ihre Emotion und ihre Betonung in Echtzeit anzupassen.
Der Modus basiert auf Eleven v3 Conversational, einem für Echtzeit-Dialoge optimierten Sprachsynthesemodell, gekoppelt mit einem neuen Sprechsystem, das Unterbrechungen reduziert. Der Preis bleibt bei 0,08 $ pro Minute. Parallel dazu restrukturiert ElevenLabs seine Plattform in drei Produktfamilien: ElevenAgents (Sprachagenten), ElevenCreative (kreative Tools) und ElevenAPI (Entwicklerplattform).
Kimi K2.5 auf Qoder integriert
9. Februar — Qoder (KI-Plattform für Entwickler) stellt Kimi K2.5 als Flaggschiffmodell seines Marktplatzes bereit, mit einem SWE-bench Verified Score von 76,8% und einem vorteilhaften Tarif (0,3x Guthaben im Tier Efficient). Der empfohlene Workflow: Verwendung schwerer Modelle für Design und Architektur, dann K2.5 für die Implementierung.
Was das bedeutet
Open-Source macht weiterhin rasche Fortschritte in Richtung Frontier-Modelle. GLM-5 von Z.ai verringert den Abstand zu Claude Opus 4.5 und GPT-5.2 bei Benchmarks für Coding und agentische Aufgaben und ist dabei unter MIT-Lizenz verfügbar. Die Veröffentlichung des Sabotageberichts ASL-4 durch Anthropic schafft einen Präzedenzfall für Transparenz in der Sicherheit, dem andere Labore wahrscheinlich folgen müssen.
Auf der Entwicklerseite zeichnen die agentischen Primitive von OpenAI (serverseitige Komprimierung, Netzwerk-Container, API-Skills) und der Ansatz “Harness Engineering” eine Zukunft, in der autonome Agenten mehrstündige Sitzungen verwalten. Kimi Agent Swarm treibt diese Logik mit der Orchestrierung von Hunderten von parallelen Sub-Agenten noch weiter voran.
Quellen
- Z.ai — Technischer Blog GLM-5
- Z.ai — Ankündigung GLM-5 auf X
- Anthropic — Thread zum Sabotage-Risikobericht
- OpenAIDevs — Agentische Primitive
- OpenAI — Harness Engineering
- Kimi — Agent Swarm
- Runway — Serie-E-Finanzierung
- Claude — Cowork Windows
- Claude — Funktionen des Free Plans
- Boris Cherny — Claude Code Slack
- ElevenLabs — Expressive Mode
- Qoder — Kimi K2.5