GLM-5 open-source, Raport Ryzyka Sabotażu ASL-4, OpenAI wprowadza prymitywy agenckie

Z.ai wprowadza GLM-5, swój nowy flagowy model open-source z 744 miliardami parametrów na licencji MIT, który zajmuje pierwsze miejsce wśród modeli open-source w zadaniach kodowania i agenckich. Anthropic publikuje raport ryzyka sabotażu ASL-4 dla Opus 4.6, OpenAI wzbogaca swoje API o prymitywy agenckie, a Kimi ujawnia system 100 równoległych podagentów. Po stronie ekosystemu, Runway pozyskuje 315 milionów dolarów, a ElevenLabs wprowadza tryb ekspresyjny dla swoich agentów głosowych.

Z.ai wprowadza GLM-5: 744B parametrów, open-source na licencji MIT

11 lutego — Z.ai (Zhipu AI) wprowadza GLM-5, swój nowy model frontier zaprojektowany do inżynierii złożonych systemów i długotrwałych zadań agenckich. W porównaniu do GLM-4.5, model rośnie z 355B parametrów (32B aktywnych) do 744B parametrów (40B aktywnych), przy czym dane przedtreningowe wzrastają z 23T do 28,5T tokenów.

GLM-5 integruje DeepSeek Sparse Attention (DSA), aby obniżyć koszty wdrożenia przy zachowaniu zdolności długiego kontekstu, i wprowadza “slime”, asynchroniczną infrastrukturę uczenia przez wzmacnianie, która poprawia przepustowość po treningu.

Benchmark	GLM-5	GLM-4.7	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro
SWE-bench Verified	77,8%	73,8%	76,8%	80,9%	76,2%
HLE (text)	30,5	24,8	31,5	28,4	37,2
HLE w/ Tools	50,4	42,8	51,8	43,4	45,8
Terminal-Bench 2.0	56,2	41,0	50,8	59,3	54,2
Vending Bench 2	4 432 $	2 377 $	1 198 $	4 967 $	5 478 $

GLM-5 pozycjonuje się jako najlepszy model open-source w rozumowaniu, kodowaniu i zadaniach agenckich, wypełniając lukę z własnościowymi modelami frontier. W Vending Bench 2, benchmarku symulującym zarządzanie automatem sprzedającym przez rok, GLM-5 kończy z saldem 4 432 USD, zbliżając się do Claude Opus 4.5 (4 967 USD).

Poza kodem, GLM-5 może bezpośrednio generować pliki .docx, .pdf i .xlsx — oferty, raporty finansowe, arkusze kalkulacyjne — dostarczane pod klucz. Z.ai wdraża tryb Agenta z wbudowanymi umiejętnościami tworzenia dokumentów, wspierając wieloetapową współpracę.

Wagi modelu są publikowane na Hugging Face na licencji MIT. GLM-5 jest kompatybilny z Claude Code i OpenClaw oraz dostępny na OpenRouter. Wdrażanie jest stopniowe, zaczynając od subskrybentów Coding Plan Max.

🔗 Blog techniczny GLM-5 🔗 Ogłoszenie na X

Anthropic publikuje pierwszy raport ryzyka sabotażu ASL-4

11 lutego — Anthropic publikuje raport ryzyka sabotażu dla Claude Opus 4.6, w oczekiwaniu na próg bezpieczeństwa ASL-4 (AI Safety Level 4) dla autonomicznych badań i rozwoju AI.

W momencie wydania Claude Opus 4.5, Anthropic zobowiązał się do pisania raportów ryzyka sabotażu dla każdego nowego modelu frontier. Zamiast nawigować po niejasnych progach, firma zdecydowała się proaktywnie przestrzegać wyższego standardu bezpieczeństwa ASL-4.

Element	Szczegóły
Oceniany model	Claude Opus 4.6
Próg bezpieczeństwa	ASL-4 (AI Safety Level 4)
Domena	Autonomiczne B+R AI
Format	Publiczny raport PDF
Precedens	Zobowiązanie podjęte podczas premiery Opus 4.5

To znaczący krok w przejrzystości bezpieczeństwa AI: Anthropic jest jednym z pierwszych laboratoriów, które opublikowało taki raport sabotażu dla modelu w produkcji.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇵🇱 Kiedy wydaliśmy Claude Opus 4.5, wiedzieliśmy, że przyszłe modele będą blisko naszego progu AI Safety Level 4 dla autonomicznych badań i rozwoju AI. Dlatego zobowiązaliśmy się do pisania raportów ryzyka sabotażu dla przyszłych modeli frontier. Dziś spełniamy to zobowiązanie dla Claude Opus 4.6. — @AnthropicAI na X

🔗 Wątek Anthropic

OpenAI: nowe prymitywy agenckie w API Responses

10 lutego — OpenAI wprowadza trzy nowe prymitywy w API Responses dla długotrwałej pracy agenckiej.

Kompakcja po stronie serwera

Umożliwia wielogodzinne sesje agentów bez osiągania limitów kontekstu. Kompakcja jest zarządzana po stronie serwera. Triple Whale, tester we wczesnym dostępie, donosi o wykonaniu 150 wywołań narzędzi i 5 milionów tokenów w jednej sesji bez utraty precyzji.

Kontenery z siecią

Kontenery hostowane przez OpenAI mogą teraz uzyskiwać dostęp do internetu w kontrolowany sposób. Administratorzy definiują białą listę domen w panelu, żądania muszą jawnie definiować network_policy, a sekrety domen mogą być wstrzykiwane bez ujawniania surowych wartości modelowi.

Umiejętności w API

Natywne wsparcie standardu Agent Skills z pierwszą wbudowaną umiejętnością (arkusze kalkulacyjne). Umiejętności to wielokrotnego użytku i wersjonowane pakiety, które można montować w hostowanych środowiskach powłoki, a modele decydują w czasie wykonywania, czy je wywołać.

Prymityw	Opis	Status
Kompakcja po stronie serwera	Wielogodzinne sesje bez limitów kontekstu	Dostępne
Kontenery z siecią	Kontrolowany dostęp do internetu dla hostowanych kontenerów	Dostępne
Umiejętności w API	Pakiety wielokrotnego użytku (pierwsza umiejętność: arkusze kalkulacyjne)	Dostępne

🔗 Wątek OpenAIDevs

Kimi Agent Swarm: orkiestracja 100 podagentów

10 lutego — Kimi (Moonshot AI) ujawnia Agent Swarm, zdolność koordynacji wielu agentów umożliwiającą zrównoleglenie złożonych zadań z udziałem do 100 wyspecjalizowanych podagentów.

System może wykonać ponad 1 500 wywołań narzędzi i osiąga prędkość 4,5x wyższą niż wykonania sekwencyjne. Przypadki użycia obejmują jednoczesne generowanie wielu plików (Word, Excel, PDF), równoległą analizę treści i kreatywne generowanie w wielu stylach równolegle. Agent Swarm rozwiązuje strukturalne ograniczenie LLM: degradację rozumowania podczas długich zadań, które wypełniają kontekst.

🔗 Ogłoszenie Kimi

OpenAI Harness Engineering: zero linii ręcznego kodu z Codex

11 lutego — OpenAI publikuje doświadczenia z budowy wewnętrznego produktu oprogramowania z zerową liczbą linii kodu napisanych ręcznie. Przez 5 miesięcy zespół od 3 do 7 inżynierów używał wyłącznie Codex do generowania całego kodu.

Metryka	Wartość
Wygenerowane linie kodu	~1 milion
Pull requests	~1 500
PR na inżyniera dziennie	średnio 3,5
Użytkownicy wewnętrzni	Kilkuset
Szacowany czas	1/10 czasu potrzebnego ręcznie
Sesje Codex	Do 6+ godzin

Podejście “Harness Engineering” redefiniuje rolę inżyniera: projektowanie środowisk, określanie intencji i budowanie pętli sprzężenia zwrotnego dla agentów, zamiast pisania kodu. Ustrukturyzowana dokumentacja w repozytorium służy jako przewodnik (AGENTS.md jako spis treści), architektura jest sztywna z linterami i testami strukturalnymi generowanymi przez Codex, a powtarzające się zadania skanują odchylenia i automatycznie otwierają PR-y refaktoryzacyjne.

🔗 Blog Harness Engineering

Runway pozyskuje 315 milionów dolarów w Serii E

10 lutego — Runway ogłasza zbiórkę funduszy w Serii E w wysokości 315 milionów dolarów, podnosząc swoją wycenę do 5,3 miliarda dolarów. Runda jest prowadzona przez General Atlantic, z udziałem NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein i innych.

Szczegóły	Wartość
Kwota	315 mln USD
Seria	E
Wycena	5,3 mld USD (vs 3,3 mld USD w Serii D)
Inwestor wiodący	General Atlantic
Łącznie pozyskane od 2018	860 mln USD

Fundusze posłużą do wstępnego trenowania nowej generacji “world models” — modeli zdolnych do symulowania świata fizycznego — i wdrażania ich w nowych produktach i branżach. To ogłoszenie następuje po premierze Gen-4.5, najnowszego modelu generowania wideo od Runway.

🔗 Oficjalne Ogłoszenie 🔗 Post Runway na X

Cowork dostępny na Windows

10 lutego — Claude Cowork, aplikacja desktopowa do wieloetapowych zadań, jest teraz dostępna na Windows w wersji research preview z pełną parytetem funkcji w porównaniu do macOS.

Funkcja	Opis
Dostęp do plików	Odczyt i zapis plików lokalnych
Wtyczki	Wsparcie dla wtyczek Cowork
Konektory MCP	Integracja z serwerami MCP
Instrukcje folderów	Styl Claude.md — instrukcje w języku naturalnym dla projektu

Cowork na Windows jest dostępny dla wszystkich płatnych planów Claude przez claude.com/cowork.

🔗 Ogłoszenie Cowork Windows

Darmowe funkcje w darmowym planie Claude

11 lutego — Anthropic rozszerza funkcje dostępne w darmowym planie Claude. Tworzenie plików, konektory, umiejętności i kompakcja są teraz dostępne bez subskrypcji. Kompakcja pozwala Claude automatycznie podsumowywać poprzedni kontekst, aby długie rozmowy mogły być kontynuowane bez restartu.

🔗 Ogłoszenie darmowego planu

Claude Code Plan Mode w Slack

11 lutego — Integracja Claude Code w Slack otrzymuje Plan Mode. Kiedy zlecasz Claude zadanie kodowania w Slack, może on teraz opracować plan przed wykonaniem, co pozwala na walidację podejścia przed implementacją.

Funkcja	Opis
Plan Mode	Opracowanie planu przed wykonaniem
Automatyczne wykrywanie	Inteligentne trasowanie między kodem a czatem
Tworzenie PR	Przycisk “Create PR” bezpośrednio ze Slacka
Wymagania wstępne	Plan Pro, Max, Team lub Enterprise + podłączony GitHub

🔗 Wątek Borisa Cherny

ElevenLabs wprowadza Tryb Ekspresyjny dla swoich agentów głosowych

10 lutego — ElevenLabs ujawnia Expressive Mode dla ElevenAgents, ewolucję, która sprawia, że jego agenci głosowi AI są zdolni do dostosowywania tonu, emocji i nacisku w czasie rzeczywistym.

Tryb opiera się na Eleven v3 Conversational, modelu syntezy mowy zoptymalizowanym pod kątem dialogu w czasie rzeczywistym, połączonym z nowym systemem zmiany rozmówców, który redukuje przerwy. Cena pozostaje na poziomie 0,08 USD za minutę. Równolegle ElevenLabs restrukturyzuje swoją platformę na trzy rodziny produktów: ElevenAgents (agenci głosowi), ElevenCreative (narzędzia kreatywne) i ElevenAPI (platforma dla deweloperów).

🔗 Blog Expressive Mode

Kimi K2.5 zintegrowany na Qoder

9 lutego — Qoder (platforma AI dla deweloperów) wdraża Kimi K2.5 jako flagowy model swojego marketplace, z wynikiem SWE-bench Verified na poziomie 76,8% i korzystną stawką (0,3x kredytu w poziomie Efficient). Rekomendowany przepływ pracy: używanie ciężkich modeli do projektowania i architektury, a następnie K2.5 do implementacji.

🔗 Ogłoszenie Qoder

Co to oznacza

Open-source nadal szybko postępuje w kierunku modeli frontier. GLM-5 od Z.ai zmniejsza lukę do Claude Opus 4.5 i GPT-5.2 w benchmarkach kodowania i zadań agenckich, będąc jednocześnie dostępnym na licencji MIT. Publikacja raportu sabotażu ASL-4 przez Anthropic ustanawia precedens w zakresie przejrzystości bezpieczeństwa, do którego inne laboratoria prawdopodobnie będą zmuszone podążać.

Po stronie deweloperów, prymitywy agenckie OpenAI (kompakcja serwera, kontenery sieciowe, umiejętności API) i podejście “Harness Engineering” rysują przyszłość, w której autonomiczni agenci zarządzają wielogodzinnymi sesjami. Kimi Agent Swarm popycha tę logikę jeszcze dalej z orkiestracją setek podagentów równolegle.