Szukaj

GLM-5 open-source, Raport Ryzyka Sabotażu ASL-4, OpenAI wprowadza prymitywy agenckie

GLM-5 open-source, Raport Ryzyka Sabotażu ASL-4, OpenAI wprowadza prymitywy agenckie

Z.ai wprowadza GLM-5, swój nowy flagowy model open-source z 744 miliardami parametrów na licencji MIT, który zajmuje pierwsze miejsce wśród modeli open-source w zadaniach kodowania i agenckich. Anthropic publikuje raport ryzyka sabotażu ASL-4 dla Opus 4.6, OpenAI wzbogaca swoje API o prymitywy agenckie, a Kimi ujawnia system 100 równoległych podagentów. Po stronie ekosystemu, Runway pozyskuje 315 milionów dolarów, a ElevenLabs wprowadza tryb ekspresyjny dla swoich agentów głosowych.


Z.ai wprowadza GLM-5: 744B parametrów, open-source na licencji MIT

11 lutego — Z.ai (Zhipu AI) wprowadza GLM-5, swój nowy model frontier zaprojektowany do inżynierii złożonych systemów i długotrwałych zadań agenckich. W porównaniu do GLM-4.5, model rośnie z 355B parametrów (32B aktywnych) do 744B parametrów (40B aktywnych), przy czym dane przedtreningowe wzrastają z 23T do 28,5T tokenów.

GLM-5 integruje DeepSeek Sparse Attention (DSA), aby obniżyć koszty wdrożenia przy zachowaniu zdolności długiego kontekstu, i wprowadza “slime”, asynchroniczną infrastrukturę uczenia przez wzmacnianie, która poprawia przepustowość po treningu.

BenchmarkGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77,8%73,8%76,8%80,9%76,2%
HLE (text)30,524,831,528,437,2
HLE w/ Tools50,442,851,843,445,8
Terminal-Bench 2.056,241,050,859,354,2
Vending Bench 24 432 $2 377 $1 198 $4 967 $5 478 $

GLM-5 pozycjonuje się jako najlepszy model open-source w rozumowaniu, kodowaniu i zadaniach agenckich, wypełniając lukę z własnościowymi modelami frontier. W Vending Bench 2, benchmarku symulującym zarządzanie automatem sprzedającym przez rok, GLM-5 kończy z saldem 4 432 USD, zbliżając się do Claude Opus 4.5 (4 967 USD).

Poza kodem, GLM-5 może bezpośrednio generować pliki .docx, .pdf i .xlsx — oferty, raporty finansowe, arkusze kalkulacyjne — dostarczane pod klucz. Z.ai wdraża tryb Agenta z wbudowanymi umiejętnościami tworzenia dokumentów, wspierając wieloetapową współpracę.

Wagi modelu są publikowane na Hugging Face na licencji MIT. GLM-5 jest kompatybilny z Claude Code i OpenClaw oraz dostępny na OpenRouter. Wdrażanie jest stopniowe, zaczynając od subskrybentów Coding Plan Max.

🔗 Blog techniczny GLM-5 🔗 Ogłoszenie na X


Anthropic publikuje pierwszy raport ryzyka sabotażu ASL-4

11 lutego — Anthropic publikuje raport ryzyka sabotażu dla Claude Opus 4.6, w oczekiwaniu na próg bezpieczeństwa ASL-4 (AI Safety Level 4) dla autonomicznych badań i rozwoju AI.

W momencie wydania Claude Opus 4.5, Anthropic zobowiązał się do pisania raportów ryzyka sabotażu dla każdego nowego modelu frontier. Zamiast nawigować po niejasnych progach, firma zdecydowała się proaktywnie przestrzegać wyższego standardu bezpieczeństwa ASL-4.

ElementSzczegóły
Oceniany modelClaude Opus 4.6
Próg bezpieczeństwaASL-4 (AI Safety Level 4)
DomenaAutonomiczne B+R AI
FormatPubliczny raport PDF
PrecedensZobowiązanie podjęte podczas premiery Opus 4.5

To znaczący krok w przejrzystości bezpieczeństwa AI: Anthropic jest jednym z pierwszych laboratoriów, które opublikowało taki raport sabotażu dla modelu w produkcji.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇵🇱 Kiedy wydaliśmy Claude Opus 4.5, wiedzieliśmy, że przyszłe modele będą blisko naszego progu AI Safety Level 4 dla autonomicznych badań i rozwoju AI. Dlatego zobowiązaliśmy się do pisania raportów ryzyka sabotażu dla przyszłych modeli frontier. Dziś spełniamy to zobowiązanie dla Claude Opus 4.6.@AnthropicAI na X

🔗 Wątek Anthropic


OpenAI: nowe prymitywy agenckie w API Responses

10 lutego — OpenAI wprowadza trzy nowe prymitywy w API Responses dla długotrwałej pracy agenckiej.

Kompakcja po stronie serwera

Umożliwia wielogodzinne sesje agentów bez osiągania limitów kontekstu. Kompakcja jest zarządzana po stronie serwera. Triple Whale, tester we wczesnym dostępie, donosi o wykonaniu 150 wywołań narzędzi i 5 milionów tokenów w jednej sesji bez utraty precyzji.

Kontenery z siecią

Kontenery hostowane przez OpenAI mogą teraz uzyskiwać dostęp do internetu w kontrolowany sposób. Administratorzy definiują białą listę domen w panelu, żądania muszą jawnie definiować network_policy, a sekrety domen mogą być wstrzykiwane bez ujawniania surowych wartości modelowi.

Umiejętności w API

Natywne wsparcie standardu Agent Skills z pierwszą wbudowaną umiejętnością (arkusze kalkulacyjne). Umiejętności to wielokrotnego użytku i wersjonowane pakiety, które można montować w hostowanych środowiskach powłoki, a modele decydują w czasie wykonywania, czy je wywołać.

PrymitywOpisStatus
Kompakcja po stronie serweraWielogodzinne sesje bez limitów kontekstuDostępne
Kontenery z sieciąKontrolowany dostęp do internetu dla hostowanych kontenerówDostępne
Umiejętności w APIPakiety wielokrotnego użytku (pierwsza umiejętność: arkusze kalkulacyjne)Dostępne

🔗 Wątek OpenAIDevs


Kimi Agent Swarm: orkiestracja 100 podagentów

10 lutego — Kimi (Moonshot AI) ujawnia Agent Swarm, zdolność koordynacji wielu agentów umożliwiającą zrównoleglenie złożonych zadań z udziałem do 100 wyspecjalizowanych podagentów.

System może wykonać ponad 1 500 wywołań narzędzi i osiąga prędkość 4,5x wyższą niż wykonania sekwencyjne. Przypadki użycia obejmują jednoczesne generowanie wielu plików (Word, Excel, PDF), równoległą analizę treści i kreatywne generowanie w wielu stylach równolegle. Agent Swarm rozwiązuje strukturalne ograniczenie LLM: degradację rozumowania podczas długich zadań, które wypełniają kontekst.

🔗 Ogłoszenie Kimi


OpenAI Harness Engineering: zero linii ręcznego kodu z Codex

11 lutego — OpenAI publikuje doświadczenia z budowy wewnętrznego produktu oprogramowania z zerową liczbą linii kodu napisanych ręcznie. Przez 5 miesięcy zespół od 3 do 7 inżynierów używał wyłącznie Codex do generowania całego kodu.

MetrykaWartość
Wygenerowane linie kodu~1 milion
Pull requests~1 500
PR na inżyniera dziennieśrednio 3,5
Użytkownicy wewnętrzniKilkuset
Szacowany czas1/10 czasu potrzebnego ręcznie
Sesje CodexDo 6+ godzin

Podejście “Harness Engineering” redefiniuje rolę inżyniera: projektowanie środowisk, określanie intencji i budowanie pętli sprzężenia zwrotnego dla agentów, zamiast pisania kodu. Ustrukturyzowana dokumentacja w repozytorium służy jako przewodnik (AGENTS.md jako spis treści), architektura jest sztywna z linterami i testami strukturalnymi generowanymi przez Codex, a powtarzające się zadania skanują odchylenia i automatycznie otwierają PR-y refaktoryzacyjne.

🔗 Blog Harness Engineering


Runway pozyskuje 315 milionów dolarów w Serii E

10 lutego — Runway ogłasza zbiórkę funduszy w Serii E w wysokości 315 milionów dolarów, podnosząc swoją wycenę do 5,3 miliarda dolarów. Runda jest prowadzona przez General Atlantic, z udziałem NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein i innych.

SzczegółyWartość
Kwota315 mln USD
SeriaE
Wycena5,3 mld USD (vs 3,3 mld USD w Serii D)
Inwestor wiodącyGeneral Atlantic
Łącznie pozyskane od 2018860 mln USD

Fundusze posłużą do wstępnego trenowania nowej generacji “world models” — modeli zdolnych do symulowania świata fizycznego — i wdrażania ich w nowych produktach i branżach. To ogłoszenie następuje po premierze Gen-4.5, najnowszego modelu generowania wideo od Runway.

🔗 Oficjalne Ogłoszenie 🔗 Post Runway na X


Cowork dostępny na Windows

10 lutego — Claude Cowork, aplikacja desktopowa do wieloetapowych zadań, jest teraz dostępna na Windows w wersji research preview z pełną parytetem funkcji w porównaniu do macOS.

FunkcjaOpis
Dostęp do plikówOdczyt i zapis plików lokalnych
WtyczkiWsparcie dla wtyczek Cowork
Konektory MCPIntegracja z serwerami MCP
Instrukcje folderówStyl Claude.md — instrukcje w języku naturalnym dla projektu

Cowork na Windows jest dostępny dla wszystkich płatnych planów Claude przez claude.com/cowork.

🔗 Ogłoszenie Cowork Windows


Darmowe funkcje w darmowym planie Claude

11 lutego — Anthropic rozszerza funkcje dostępne w darmowym planie Claude. Tworzenie plików, konektory, umiejętności i kompakcja są teraz dostępne bez subskrypcji. Kompakcja pozwala Claude automatycznie podsumowywać poprzedni kontekst, aby długie rozmowy mogły być kontynuowane bez restartu.

🔗 Ogłoszenie darmowego planu


Claude Code Plan Mode w Slack

11 lutego — Integracja Claude Code w Slack otrzymuje Plan Mode. Kiedy zlecasz Claude zadanie kodowania w Slack, może on teraz opracować plan przed wykonaniem, co pozwala na walidację podejścia przed implementacją.

FunkcjaOpis
Plan ModeOpracowanie planu przed wykonaniem
Automatyczne wykrywanieInteligentne trasowanie między kodem a czatem
Tworzenie PRPrzycisk “Create PR” bezpośrednio ze Slacka
Wymagania wstępnePlan Pro, Max, Team lub Enterprise + podłączony GitHub

🔗 Wątek Borisa Cherny


ElevenLabs wprowadza Tryb Ekspresyjny dla swoich agentów głosowych

10 lutego — ElevenLabs ujawnia Expressive Mode dla ElevenAgents, ewolucję, która sprawia, że jego agenci głosowi AI są zdolni do dostosowywania tonu, emocji i nacisku w czasie rzeczywistym.

Tryb opiera się na Eleven v3 Conversational, modelu syntezy mowy zoptymalizowanym pod kątem dialogu w czasie rzeczywistym, połączonym z nowym systemem zmiany rozmówców, który redukuje przerwy. Cena pozostaje na poziomie 0,08 USD za minutę. Równolegle ElevenLabs restrukturyzuje swoją platformę na trzy rodziny produktów: ElevenAgents (agenci głosowi), ElevenCreative (narzędzia kreatywne) i ElevenAPI (platforma dla deweloperów).

🔗 Blog Expressive Mode


Kimi K2.5 zintegrowany na Qoder

9 lutego — Qoder (platforma AI dla deweloperów) wdraża Kimi K2.5 jako flagowy model swojego marketplace, z wynikiem SWE-bench Verified na poziomie 76,8% i korzystną stawką (0,3x kredytu w poziomie Efficient). Rekomendowany przepływ pracy: używanie ciężkich modeli do projektowania i architektury, a następnie K2.5 do implementacji.

🔗 Ogłoszenie Qoder


Co to oznacza

Open-source nadal szybko postępuje w kierunku modeli frontier. GLM-5 od Z.ai zmniejsza lukę do Claude Opus 4.5 i GPT-5.2 w benchmarkach kodowania i zadań agenckich, będąc jednocześnie dostępnym na licencji MIT. Publikacja raportu sabotażu ASL-4 przez Anthropic ustanawia precedens w zakresie przejrzystości bezpieczeństwa, do którego inne laboratoria prawdopodobnie będą zmuszone podążać.

Po stronie deweloperów, prymitywy agenckie OpenAI (kompakcja serwera, kontenery sieciowe, umiejętności API) i podejście “Harness Engineering” rysują przyszłość, w której autonomiczni agenci zarządzają wielogodzinnymi sesjami. Kimi Agent Swarm popycha tę logikę jeszcze dalej z orkiestracją setek podagentów równolegle.


Źródła