Pracowity tydzień dla agentów AI
Od 21 do 23 stycznia 2026, kilka ważnych ogłoszeń dotyczących coding agents i infrastruktury. Anthropic wprowadza Claude do Excela i publikuje trzy artykuły o systemach wieloagentowych, OpenAI szczegółowo opisuje wewnętrzną architekturę Codex i swoją infrastrukturę PostgreSQL, Qwen udostępnia swój model text-to-speech jako open-source, a Runway dodaje Image to Video do Gen-4.5.
Anthropic: Claude w Excelu i Claude Code
Claude w Excelu
23 stycznia — Claude jest teraz dostępny w Microsoft Excel w wersji beta. Integracja umożliwia analizę kompletnych skoroszytów Excela wraz z ich zagnieżdżonymi formułami i zależnościami między arkuszami.
Funkcje:
- Zrozumienie całego skoroszytu (formuły, zależności między arkuszami)
- Wyjaśnienia z cytatami na poziomie komórki
- Aktualizacja założeń przy zachowaniu formuł
Dostępne dla subskrybentów Claude Pro, Max, Team i Enterprise.
Claude Code v2.1.19: system Tasks
23 stycznia — Wersja 2.1.19 wprowadza Tasks, nowy system zarządzania zadaniami dla złożonych projektów wielosesyjnych.
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇵🇱 Zmieniamy Todos w Tasks w Claude Code. Tasks to nowa funkcja podstawowa, która pomaga Claude Code śledzić i realizować bardziej skomplikowane projekty oraz współpracować nad nimi w wielu sesjach lub subagentach. — Thariq (@trq212), zespół Claude Code Anthropic
Funkcje Tasks:
| Aspekt | Szczegół |
|---|---|
| Przechowywanie | ~/.claude/tasks (pliki, umożliwia budowanie na nich narzędzi) |
| Współpraca | CLAUDE_CODE_TASK_LIST_ID=nazwa claude do udostępniania między sesjami |
| Zależności | Tasks z zależnościami i blokadami przechowywanymi w metadanych |
| Broadcast | Aktualizacja Taska rozgłaszana do wszystkich sesji na tej samej Task List |
| Kompatybilność | Działa z claude -p i AgentSDK |
Do czego to służy: Przy złożonym projekcie (refaktoryzacja wielu plików, migracja, długa funkcja), Claude może podzielić pracę na zadania (tasks), śledzić co jest zrobione, a co zostało. Zadania są trwałe na dysku — przetrwają kompakcję kontekstu, zamknięcie sesji i restart. Wiele sesji lub subagentów może współpracować nad tą samą listą zadań w czasie rzeczywistym.
W praktyce: Claude tworzy zadania (TaskCreate), wyświetla je (TaskList) i aktualizuje ich status (TaskUpdate: pending → in_progress → completed). Przykład przy refaktoryzacji uwierzytelniania:
#1 [completed] Migracja przechowywania sesji do Redis
#2 [in_progress] Implementacja rotacji refresh tokenów
#3 [pending] Dodanie testów integracyjnych OAuth
#4 [pending] Aktualizacja dokumentacji API
Zadania są przechowywane w ~/.claude/tasks/ i mogą być udostępniane między sesjami przez CLAUDE_CODE_TASK_LIST_ID.
Inne nowości v2.1.19:
- Skrót
$0,$1dla argumentów w komendach niestandardowych - Forkowanie sesji VSCode i przewijanie dla wszystkich
- Skills bez uprawnień wykonują się bez zatwierdzenia
CLAUDE_CODE_ENABLE_TASKS=falseaby tymczasowo wyłączyć
🔗 CHANGELOG Claude Code | Wątek @trq212
Claude Code v2.1.18: konfigurowalne skróty klawiszowe
Poprzednia wersja dodająca możliwość konfiguracji skrótów klawiszowych dla kontekstu i tworzenia sekwencji akordów.
Komenda: /keybindings
⚠️ Uwaga: Ta funkcja jest obecnie w wersji preview i nie jest dostępna dla wszystkich użytkowników.
Petri 2.0: zautomatyzowane audyty dostosowania
22 stycznia — Anthropic publikuje Petri 2.0, aktualizację swojego narzędzia do zautomatyzowanego audytu behawioralnego modeli językowych.
Do czego to służy: Petri testuje, czy LLM mógłby zachowywać się problematycznie — manipulacja, oszustwo, obchodzenie zasad. Narzędzie generuje realistyczne scenariusze i obserwuje odpowiedzi modelu, aby wykryć niepożądane zachowania, zanim wystąpią one w produkcji.
| Ulepszenie | Opis |
|---|---|
| 70 nowych scenariuszy | Rozszerzona biblioteka seedów, aby pokryć więcej przypadków brzegowych |
| Mitygacje eval-awareness | Model nie może wiedzieć, że jest testowany — w przeciwnym razie dostosowuje swoje zachowanie. Petri 2.0 poprawia realizm scenariuszy, aby uniknąć tego wykrycia. |
| Porównania frontier | Wyniki ewaluacji dla najnowszych modeli (Claude, GPT, Gemini) |
Blog: kiedy używać (lub nie) systemów wieloagentowych
23 stycznia — Anthropic publikuje pragmatyczny przewodnik po architekturach wieloagentowych. Główne przesłanie: nie używaj multi-agent domyślnie.
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇵🇱 Widzieliśmy zespoły inwestujące miesiące w budowanie rozbudowanych architektur wieloagentowych tylko po to, by odkryć, że ulepszone promptowanie na jednym agencie osiągało równoważne wyniki.
Artykuł identyfikuje 3 przypadki, gdzie multi-agent naprawdę wnosi wartość:
| Przypadek | Problem | Rozwiązanie multi-agent |
|---|---|---|
| Zanieczyszczenie kontekstu | Agent generuje obszerne dane, z których tylko podsumowanie jest potem przydatne | Subagent pobiera 2000 tokenów historii, zwraca tylko “zamówienie dostarczone” do głównego agenta |
| Równoległość | Wiele niezależnych wyszukiwań do wykonania | Uruchom 5 agentów równolegle na 5 różnych źródłach zamiast przetwarzać je sekwencyjnie |
| Specjalizacja | Zbyt wiele narzędzi (20+) w jednym agencie pogarsza jego zdolność do wyboru właściwego | Podział na wyspecjalizowanych agentów: jeden do CRM, jeden do marketingu, jeden do komunikacji |
Pułapka do uniknięcia: Dzielenie według typu pracy (jeden agent planuje, inny implementuje, inny testuje). Każde przekazanie traci kontekst i pogarsza jakość. Lepiej, by jeden agent obsługiwał funkcjonalność od początku do końca.
Rzeczywisty koszt: 3-10x więcej tokenów niż pojedynczy agent za to samo zadanie.
Inne artykuły z serii:
Building agents with Skills (22 sty)
Zamiast budować agentów wyspecjalizowanych w domenie, Anthropic proponuje budowanie skills: zbiorów plików (przepływy pracy, skrypty, najlepsze praktyki), które agent ogólny ładuje na żądanie.
Progresywne ujawnianie na 3 poziomach:
| Poziom | Treść | Rozmiar |
|---|---|---|
| 1 | Metadane (nazwa, opis) | ~50 tokenów |
| 2 | Pełny plik SKILL.md | ~500 tokenów |
| 3 | Dokumentacja referencyjna | 2000+ tokenów |
Każdy poziom jest ładowany tylko w razie potrzeby. Wynik: agent może mieć setki skills bez nasycania swojego kontekstu.
Eight trends 2026 (21 sty)
Anthropic identyfikuje 8 trendów w rozwoju oprogramowania w 2026 roku.
Kluczowe przesłanie: Inżynierowie przechodzą od pisania kodu do koordynowania agentów, którzy piszą kod.
Ważny niuans: AI jest używana w ~60% pracy, ale tylko 0-20% może być w pełni oddelegowane — nadzór ludzki pozostaje niezbędny.
| Firma | Wynik |
|---|---|
| Rakuten | Claude Code na bazie kodu vLLM (12.5M linii), 7h autonomicznej pracy |
| TELUS | 30% szybciej, 500k godzin zaoszczędzone |
| Zapier | 89% adopcji AI, 800+ wewnętrznych agentów |
OpenAI: architektura Codex i infrastruktura
Unrolling the Codex agent loop
23 stycznia — OpenAI otwiera kulisy Codex CLI. Pierwszy artykuł z serii o wewnętrznym działaniu ich agenta oprogramowania.
Czego się dowiadujemy:
Pętla agenta jest teoretycznie prosta: użytkownik wysyła żądanie → model generuje odpowiedź lub prosi o narzędzie → agent wykonuje narzędzie → model wznawia z wynikiem → aż do ostatecznej odpowiedzi. W praktyce subtelności tkwią w zarządzaniu kontekstem.
Prompt caching — klucz do wydajności:
Każda tura rozmowy dodaje treść do promptu. Bez optymalizacji jest to kwadratowe w wysłanych tokenach. Prompt caching pozwala na ponowne wykorzystanie obliczeń z poprzednich tur. Warunek: nowy prompt musi być dokładnym prefiksem starego. OpenAI szczegółowo opisuje pułapki, które psują cache (zmiana kolejności narzędzi MCP, modyfikacja konfiguracji w trakcie rozmowy).
Automatyczna kompakcja:
Gdy kontekst przekroczy próg, Codex wywołuje /responses/compact, co zwraca skompresowaną wersję rozmowy. Model zachowuje utajone zrozumienie poprzez nieprzejrzysty encrypted_content.
Zero Data Retention (ZDR):
Dla klientów, którzy nie chcą, aby ich dane były przechowywane, encrypted_content pozwala na zachowanie rozumowania modelu między turami bez przechowywania danych po stronie serwera.
Pierwszy artykuł z serii — kolejne obejmą architekturę CLI, implementację narzędzi i sandboxing.
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL: 800 milionów użytkowników ChatGPT
22 stycznia — OpenAI szczegółowo opisuje, jak PostgreSQL zasila ChatGPT i API dla 800 milionów użytkowników z milionami żądań na sekundę.
| Metryka | Wartość |
|---|---|
| Użytkownicy | 800 milionów |
| Przepustowość | Miliony QPS |
| Repliki | ~50 read replicas multi-region |
| Opóźnienie p99 | Dwucyfrowe ms po stronie klienta |
| Dostępność | Five-nines (99.999%) |
Architektura:
- Single primary Azure PostgreSQL flexible server
- PgBouncer do connection pooling (opóźnienie połączenia: 50ms → 5ms)
- Obciążenia write-heavy zmigrowane do Azure Cosmos DB
- Cache locking w celu ochrony przed burzami cache miss
- Kaskadowa replikacja w testach, aby przekroczyć 100 replik
Jedyny SEV-0 PostgreSQL w ciągu ostatnich 12 miesięcy: podczas wiralowego startu ChatGPT ImageGen (100M nowych użytkowników w tydzień, ruch zapisu x10).
Qwen: Qwen3-TTS open-source
22-23 stycznia — Alibaba udostępnia Qwen3-TTS jako open-source na licencji Apache 2.0.
| Cecha | Szczegół |
|---|---|
| Licencja | Apache 2.0 |
| Voice cloning | Tak |
| Wsparcie MLX-Audio | Dostępne |
Instalacja:
uv pip install -U mlx-audio --prerelease=allow
Runway: Gen-4.5 Image to Video
21 stycznia — Runway dodaje funkcjonalność Image to Video do Gen-4.5.
| Funkcjonalność | Opis |
|---|---|
| Image to Video | Transformacja obrazu w kinowe wideo |
| Camera control | Precyzyjna kontrola kamery |
| Coherent narratives | Spójne narracje w czasie |
| Character consistency | Postacie, które pozostają spójne |
Dostępne dla wszystkich płatnych planów Runway. Tymczasowa promocja: 15% zniżki.
Co to oznacza
Ten tydzień oznacza dojrzewanie narzędzi coding agents. Dwaj giganci (Anthropic i OpenAI) publikują szczegółową dokumentację techniczną na temat architektury swoich agentów — znak, że rynek przechodzi z fazy “demo” do fazy “produkcja”.
Po stronie infrastruktury, artykuł o PostgreSQL od OpenAI pokazuje, że architektura single-primary może wytrzymać skalę setek milionów użytkowników przy odpowiednich optymalizacjach.
Pojawienie się Claude’a w Excelu otwiera nowy front: AI zintegrowane bezpośrednio z codziennymi narzędziami produktywności.