Anthropic uderza mocno z Claude Sonnet 4.6, modelem, który rywalizuje z Opus w wielu zadaniach w cenie Sonnet. Równocześnie Qwen publikuje swój pierwszy model Qwen3.5 jako open-weight z 397 miliardami parametrów, a Google integruje Lyria 3 — swój model generowania muzyki — bezpośrednio w Gemini.
Claude Sonnet 4.6: wydajność Opus w cenie Sonnet
17 lutego — Anthropic wprowadza Claude Sonnet 4.6, opisywany jako najbardziej kompetentny Sonnet do tej pory. Model stanowi pełną aktualizację w zakresie coding, computer use, rozumowania w długim kontekście, planowania agentów, pracy intelektualnej i designu. Posiada okno kontekstowe 1 miliona tokenów w wersji beta.
Pozycjonowanie jest jasne: wydajność, która wymagałaby modelu Opus, jest teraz dostępna w taryfie Sonnet, czyli 15 za milion tokenów (bez zmian w stosunku do Sonnet 4.5). Sonnet 4.6 staje się domyślnym modelem w planach Free i Pro w claude.ai oraz Claude Cowork.
Benchmarki i opinie użytkowników
W Claude Code testerzy preferowali Sonnet 4.6 nad Sonnet 4.5 w około 70% przypadków, zgłaszając lepsze czytanie kontekstu przed modyfikacją kodu i konsolidację wspólnej logiki zamiast jej duplikowania. Co bardziej znaczące: użytkownicy preferowali Sonnet 4.6 nad Opus 4.5 (model frontier z listopada 2025) w 59% przypadków, powołując się na mniejsze „lenistwo” i lepsze przestrzeganie instrukcji.
| Benchmark | Wynik |
|---|---|
| SWE-bench Verified | 80.2% (z modyfikacją promptu) |
| OSWorld (computer use) | Znaczący postęp w ciągu 16 miesięcy |
| OfficeQA | Dorównuje Opus 4.6 |
| Vending-Bench Arena | Wschodząca strategia inwestycji/zwrotu |
Computer use znacząco postępuje: Sonnet 4.6 poprawia również odporność na prompt injections w porównaniu do Sonnet 4.5, osiągając poziom porównywalny z Opus 4.6.
Powiązane aktualizacje produktów
Ogłoszeniu towarzyszy kilka ogólnych udostępnień w API Claude: wykonywanie kodu, pamięć, programatyczne wywołania narzędzi, wyszukiwanie narzędzi i przykłady użycia narzędzi. Wyszukiwanie w sieci i narzędzia fetch integrują teraz dynamiczne filtrowanie — Claude automatycznie pisze i wykonuje kod w celu filtrowania wyników wyszukiwania, zachowując w kontekście tylko istotne treści.
🔗 Ulepszone wyszukiwanie w sieci z dynamicznym filtrowaniem
Dla użytkowników Claude in Excel, dodatek obsługuje teraz konektory MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), dostępne w planach Pro, Max, Team i Enterprise.
Anthropic mierzy autonomię agentów AI w rzeczywistych warunkach
18 lutego — Anthropic publikuje badanie analizujące miliony interakcji człowiek-agent poprzez Claude Code i publiczne API, mające na celu: zrozumienie, jak ludzie zarządzają autonomią agentów w praktyce.
Kluczowe wyniki
| Metryka | Wartość |
|---|---|
| Maksymalny czas autonomiczny (99.9. percentyl) | ~45 minut (podwojony w 3 miesiące) |
| Auto-approve (doświadczeni użytkownicy) | 40%+ (vs 20% dla nowych) |
| Udział software engineering w ruchu API | ~50% |
| Działania z zabezpieczeniami | 80% |
| Działania z człowiekiem w pętli | 73% |
| Działania nieodwracalne | 0.8% |
Sprzeczne z intuicją odkrycie: doświadczeni użytkownicy zwiększają zarówno wskaźnik auto-approve, JAK I wskaźnik przerwań. Przechodzą od nadzoru działanie-po-działaniu do aktywnego monitorowania z ukierunkowaną interwencją. Ponadto Claude zatrzymuje się, aby prosić o wyjaśnienia częściej, niż ludzie go przerywają, szczególnie przy złożonych zadaniach.
Badanie konkluduje, że istnieje znaczna luka między możliwościami a użyciem: autonomia, którą modele są w stanie obsłużyć, znacznie przewyższa tę, którą przyznajemy im w praktyce — zjawisko, które badacze określają jako „nadwyżka niewdrożonej autonomii”.
Anthropic: partnerstwa Rwanda i Infosys
17 lutego — Równolegle z wprowadzeniem Sonnet 4.6, Anthropic podpisuje memorandum o porozumieniu z rządem Rwandy w celu wdrożenia Claude w sektorach zdrowia, edukacji i administracji publicznej. Partnerstwo, prowadzone przez Ministerstwo ICT i Innowacji, obejmuje szkolenie urzędników i wdrożenie towarzysza edukacyjnego AI w ośmiu krajach afrykańskich.
Anthropic ogłasza również współpracę z Infosys w celu budowy agentów AI dla telekomunikacji i innych regulowanych branż.
Qwen3.5-397B-A17B: pierwszy open-weight z serii 3.5
16 lutego — Alibaba Qwen publikuje Qwen3.5-397B-A17B, pierwszy model open-weight z serii Qwen3.5. Jest to znaczący postęp dzięki hybrydowej architekturze łączącej liniową uwagę i Mixture-of-Experts (MoE).
| Cecha | Szczegóły |
|---|---|
| Całkowite parametry | 397B (architektura hybrydowa MoE) |
| Architektura | Hybrydowa uwaga liniowa + sparse MoE |
| Przepustowość | 8.6x do 19.0x wyższa niż Qwen3-Max |
| Języki | 201 języków i dialektów |
| Licencja | Apache 2.0 |
| Trening | Uczenie ze wzmocnieniem na dużą skalę |
| Specjalność | Natywny multimodal, rzeczywiści agenci |
Model jest dostępny natychmiast na Hugging Face, ModelScope, Alibaba Cloud Model Studio oraz przez Qwen Code. Z obsługą 201 języków i licencją Apache 2.0, jest to jeden z najbardziej ambitnych modeli open-weight w tej chwili pod względem pokrycia językowego i przepustowości inferencji.
Google Lyria 3: generowanie muzyki trafia do Gemini
18 lutego — Google i DeepMind prezentują Lyria 3, model AI do generowania muzyki zintegrowany bezpośrednio z aplikacją Gemini. Użytkownicy mogą tworzyć 30-sekundowe ścieżki muzyczne na podstawie promptów tekstowych, zdjęć lub wideo, z generowaniem niestandardowych tekstów piosenek.
| Funkcjonalność | Szczegóły |
|---|---|
| Wejście | Tekst, obrazy, wideo |
| Wyjście | 30-sekundowe ścieżki audio |
| Personalizacja | Różne style muzyczne, generowane teksty |
| Dostępność | Beta w Gemini (18 lat+) |
Lyria 3 wykazuje znaczącą elastyczność w kombinacjach instrumentów i gatunków, umożliwiając tworzenie od dżingli po kompozycje lo-fi. Globalne wdrażanie odbywa się stopniowo.
OpenAI EVMbench: benchmark bezpieczeństwa dla smart contracts
18 lutego — OpenAI i Paradigm uruchamiają EVMbench, benchmark oceniający zdolność agentów AI do wykrywania, naprawiania i eksploatowania luk w smart contracts Ethereum. Benchmark opiera się na 120 wyselekcjonowanych lukach z 40 audytów (głównie konkursy Code4rena).
| Tryb | Opis | GPT-5.3-Codex | GPT-5 (6 miesięcy) |
|---|---|---|---|
| Exploit | Wykonywanie ataków drenażowych | 72.2% | 31.9% |
| Detect | Audytowanie i wykrywanie luk | < pełne pokrycie | - |
| Patch | Naprawianie z zachowaniem funkcjonalności | < pełne pokrycie | - |
Interesujące spostrzeżenie: agenci AI radzą sobie lepiej w eksploatacji (cel jawny) niż w wykrywaniu i naprawianiu, gdzie często poddają się po znalezieniu pierwszej luce. OpenAI potwierdza swoje zaangażowanie w wysokości $10M w kredytach API na defensywne cyberbezpieczeństwo.
GLM-5 Technical Report: Z.ai dokumentuje swój model
18 lutego — Z.ai publikuje pełny raport techniczny GLM-5, szczegółowo opisujący innowacje architektoniczne modelu uruchomionego 11 lutego (744B parametrów, 40B aktywnych, licencja MIT).
Trzy kluczowe udokumentowane innowacje: Dynamic Sparse Attention (DSA) w celu zmniejszenia kosztów treningu i inferencji, asynchroniczna infrastruktura RL oddzielająca generowanie od treningu oraz algorytmy RL dla agentów umożliwiające złożone interakcje w długim horyzoncie czasowym. Raport jest dostępny na arXiv.
🔗 Tweet @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya: ultrakompaktowe wielojęzyczne AI
17 lutego — Cohere Labs prezentuje Tiny Aya, rodzinę małych modeli językowych obsługujących 70+ języków przy zaledwie 3.35 miliarda parametrów. Cel: uczynienie wielojęzycznego AI dostępnym wszędzie, w tym na telefonach i offline.
Tiny Aya celuje w trzy grupy odbiorców: badaczy pracujących w językach nieangielskich, deweloperów tworzących dla społeczności cyfrowo niedostatecznie obsłużonych oraz aplikacje wbudowane wymagające niezawodnego tłumaczenia bez zależności od chmury. Model zawiera funkcję tłumaczenia offline, poprawiając prywatność i zmniejszając opóźnienia.
Runway Gen-4.5 dostępne przez API + Claude Code Skill
17 lutego — Runway otwiera dostęp do Gen-4.5 przez swoje API, umożliwiając deweloperom integrację generowania obrazów, wideo i audio bezpośrednio w ich projektach. Ogłoszeniu towarzyszy dedykowany Claude Code Skill, dostępny na GitHub, który pozwala na generowanie multimediów Runway bez opuszczania środowiska programistycznego.
🔗 Tweet @runwayml · 🔗 GitHub Skills
Manus Agents: osobisty agent z pamięcią długoterminową
16 lutego — Manus uruchamia Manus Agents, funkcję umożliwiającą każdemu użytkownikowi posiadanie osobistego agenta bezpośrednio w rozmowach na czacie. Agent łączy pamięć długoterminową (zapamiętywanie stylu, tonu i preferencji), pełne możliwości tworzenia (wideo, slajdy, strony internetowe, obrazy) oraz bezpośrednie integracje z Gmail, Calendar i Notion.
ElevenAgents for Support
17 lutego — ElevenLabs uruchamia ElevenAgents for Support, konwersacyjne agenty AI do obsługi klienta. Działając głosowo i na kanałach cyfrowych w ponad 70 językach, agenty te opierają się na platformie agentic ElevenLabs i jej ponad 4 milionach wdrożeń produkcyjnych.
NotebookLM x Zillow: notatnik nieruchomości
18 lutego — NotebookLM uruchamia we współpracy z Zillow darmowy Featured Notebook dla kupujących domy, centralizujący porady ekspertów dotyczące przygotowania finansowego, oceny rynku i procedur zakupu.
Co to oznacza
Ten tydzień ilustruje dwa główne trendy. Pierwszym jest demokratyzacja wydajności frontier: Sonnet 4.6 przynosi możliwości Opus w cenie 5 razy niższej, podczas gdy Qwen3.5 udostępnia model o 397B parametrach na licencji Apache 2.0. Drugim jest ekspansja agentów AI na nowe dziedziny — badanie Anthropic pokazuje, że najdłuższe sesje autonomiczne podwoiły się w ciągu trzech miesięcy, a gracze tacy jak Manus, ElevenLabs i Runway budują wyspecjalizowanych agentów (osobisty czat, obsługa klienta, tworzenie multimediów).
Nadejście generowania muzyki w Gemini z Lyria 3 oraz benchmark EVMbench dla bezpieczeństwa blockchain pokazują również, że generatywne AI i AI bezpieczeństwa nadal strukturyzują się jako odrębne dziedziny.
Źródła
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Ulepszone wyszukiwanie w sieci z dynamicznym filtrowaniem — Claude Blog
- Claude API improvements — @claudeai