AI News 23 sty 2026: Claude w Excelu, Tasks Claude Code, Codex Agent Loop

Pracowity tydzień dla agentów AI

Od 21 do 23 stycznia 2026, kilka ważnych ogłoszeń dotyczących coding agents i infrastruktury. Anthropic wprowadza Claude do Excela i publikuje trzy artykuły o systemach wieloagentowych, OpenAI szczegółowo opisuje wewnętrzną architekturę Codex i swoją infrastrukturę PostgreSQL, Qwen udostępnia swój model text-to-speech jako open-source, a Runway dodaje Image to Video do Gen-4.5.

Anthropic: Claude w Excelu i Claude Code

Claude w Excelu

23 stycznia — Claude jest teraz dostępny w Microsoft Excel w wersji beta. Integracja umożliwia analizę kompletnych skoroszytów Excela wraz z ich zagnieżdżonymi formułami i zależnościami między arkuszami.

Funkcje:

Zrozumienie całego skoroszytu (formuły, zależności między arkuszami)
Wyjaśnienia z cytatami na poziomie komórki
Aktualizacja założeń przy zachowaniu formuł

Dostępne dla subskrybentów Claude Pro, Max, Team i Enterprise.

🔗 Claude w Excelu

Claude Code v2.1.19: system Tasks

23 stycznia — Wersja 2.1.19 wprowadza Tasks, nowy system zarządzania zadaniami dla złożonych projektów wielosesyjnych.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇵🇱 Zmieniamy Todos w Tasks w Claude Code. Tasks to nowa funkcja podstawowa, która pomaga Claude Code śledzić i realizować bardziej skomplikowane projekty oraz współpracować nad nimi w wielu sesjach lub subagentach. — Thariq (@trq212), zespół Claude Code Anthropic

Funkcje Tasks:

Aspekt	Szczegół
Przechowywanie	`~/.claude/tasks` (pliki, umożliwia budowanie na nich narzędzi)
Współpraca	`CLAUDE_CODE_TASK_LIST_ID=nazwa claude` do udostępniania między sesjami
Zależności	Tasks z zależnościami i blokadami przechowywanymi w metadanych
Broadcast	Aktualizacja Taska rozgłaszana do wszystkich sesji na tej samej Task List
Kompatybilność	Działa z `claude -p` i AgentSDK

Do czego to służy: Przy złożonym projekcie (refaktoryzacja wielu plików, migracja, długa funkcja), Claude może podzielić pracę na zadania (tasks), śledzić co jest zrobione, a co zostało. Zadania są trwałe na dysku — przetrwają kompakcję kontekstu, zamknięcie sesji i restart. Wiele sesji lub subagentów może współpracować nad tą samą listą zadań w czasie rzeczywistym.

W praktyce: Claude tworzy zadania (TaskCreate), wyświetla je (TaskList) i aktualizuje ich status (TaskUpdate: pending → in_progress → completed). Przykład przy refaktoryzacji uwierzytelniania:

#1 [completed] Migracja przechowywania sesji do Redis
#2 [in_progress] Implementacja rotacji refresh tokenów
#3 [pending] Dodanie testów integracyjnych OAuth
#4 [pending] Aktualizacja dokumentacji API

Zadania są przechowywane w ~/.claude/tasks/ i mogą być udostępniane między sesjami przez CLAUDE_CODE_TASK_LIST_ID.

Inne nowości v2.1.19:

Skrót $0, $1 dla argumentów w komendach niestandardowych
Forkowanie sesji VSCode i przewijanie dla wszystkich
Skills bez uprawnień wykonują się bez zatwierdzenia
CLAUDE_CODE_ENABLE_TASKS=false aby tymczasowo wyłączyć

🔗 CHANGELOG Claude Code | Wątek @trq212

Claude Code v2.1.18: konfigurowalne skróty klawiszowe

Poprzednia wersja dodająca możliwość konfiguracji skrótów klawiszowych dla kontekstu i tworzenia sekwencji akordów.

Komenda: /keybindings

⚠️ Uwaga: Ta funkcja jest obecnie w wersji preview i nie jest dostępna dla wszystkich użytkowników.

🔗 Dokumentacja Keybindings

Petri 2.0: zautomatyzowane audyty dostosowania

22 stycznia — Anthropic publikuje Petri 2.0, aktualizację swojego narzędzia do zautomatyzowanego audytu behawioralnego modeli językowych.

Do czego to służy: Petri testuje, czy LLM mógłby zachowywać się problematycznie — manipulacja, oszustwo, obchodzenie zasad. Narzędzie generuje realistyczne scenariusze i obserwuje odpowiedzi modelu, aby wykryć niepożądane zachowania, zanim wystąpią one w produkcji.

Ulepszenie	Opis
70 nowych scenariuszy	Rozszerzona biblioteka seedów, aby pokryć więcej przypadków brzegowych
Mitygacje eval-awareness	Model nie może wiedzieć, że jest testowany — w przeciwnym razie dostosowuje swoje zachowanie. Petri 2.0 poprawia realizm scenariuszy, aby uniknąć tego wykrycia.
Porównania frontier	Wyniki ewaluacji dla najnowszych modeli (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub

Blog: kiedy używać (lub nie) systemów wieloagentowych

23 stycznia — Anthropic publikuje pragmatyczny przewodnik po architekturach wieloagentowych. Główne przesłanie: nie używaj multi-agent domyślnie.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇵🇱 Widzieliśmy zespoły inwestujące miesiące w budowanie rozbudowanych architektur wieloagentowych tylko po to, by odkryć, że ulepszone promptowanie na jednym agencie osiągało równoważne wyniki.

Artykuł identyfikuje 3 przypadki, gdzie multi-agent naprawdę wnosi wartość:

Przypadek	Problem	Rozwiązanie multi-agent
Zanieczyszczenie kontekstu	Agent generuje obszerne dane, z których tylko podsumowanie jest potem przydatne	Subagent pobiera 2000 tokenów historii, zwraca tylko “zamówienie dostarczone” do głównego agenta
Równoległość	Wiele niezależnych wyszukiwań do wykonania	Uruchom 5 agentów równolegle na 5 różnych źródłach zamiast przetwarzać je sekwencyjnie
Specjalizacja	Zbyt wiele narzędzi (20+) w jednym agencie pogarsza jego zdolność do wyboru właściwego	Podział na wyspecjalizowanych agentów: jeden do CRM, jeden do marketingu, jeden do komunikacji

Pułapka do uniknięcia: Dzielenie według typu pracy (jeden agent planuje, inny implementuje, inny testuje). Każde przekazanie traci kontekst i pogarsza jakość. Lepiej, by jeden agent obsługiwał funkcjonalność od początku do końca.

Rzeczywisty koszt: 3-10x więcej tokenów niż pojedynczy agent za to samo zadanie.

Inne artykuły z serii:

Building agents with Skills (22 sty)

Zamiast budować agentów wyspecjalizowanych w domenie, Anthropic proponuje budowanie skills: zbiorów plików (przepływy pracy, skrypty, najlepsze praktyki), które agent ogólny ładuje na żądanie.

Progresywne ujawnianie na 3 poziomach:

Poziom	Treść	Rozmiar
1	Metadane (nazwa, opis)	~50 tokenów
2	Pełny plik SKILL.md	~500 tokenów
3	Dokumentacja referencyjna	2000+ tokenów

Każdy poziom jest ładowany tylko w razie potrzeby. Wynik: agent może mieć setki skills bez nasycania swojego kontekstu.

🔗 Building agents with Skills

Eight trends 2026 (21 sty)

Anthropic identyfikuje 8 trendów w rozwoju oprogramowania w 2026 roku.

Kluczowe przesłanie: Inżynierowie przechodzą od pisania kodu do koordynowania agentów, którzy piszą kod.

Ważny niuans: AI jest używana w ~60% pracy, ale tylko 0-20% może być w pełni oddelegowane — nadzór ludzki pozostaje niezbędny.

Firma	Wynik
Rakuten	Claude Code na bazie kodu vLLM (12.5M linii), 7h autonomicznej pracy
TELUS	30% szybciej, 500k godzin zaoszczędzone
Zapier	89% adopcji AI, 800+ wewnętrznych agentów

🔗 Eight trends 2026

OpenAI: architektura Codex i infrastruktura

Unrolling the Codex agent loop

23 stycznia — OpenAI otwiera kulisy Codex CLI. Pierwszy artykuł z serii o wewnętrznym działaniu ich agenta oprogramowania.

Czego się dowiadujemy:

Pętla agenta jest teoretycznie prosta: użytkownik wysyła żądanie → model generuje odpowiedź lub prosi o narzędzie → agent wykonuje narzędzie → model wznawia z wynikiem → aż do ostatecznej odpowiedzi. W praktyce subtelności tkwią w zarządzaniu kontekstem.

Prompt caching — klucz do wydajności:

Każda tura rozmowy dodaje treść do promptu. Bez optymalizacji jest to kwadratowe w wysłanych tokenach. Prompt caching pozwala na ponowne wykorzystanie obliczeń z poprzednich tur. Warunek: nowy prompt musi być dokładnym prefiksem starego. OpenAI szczegółowo opisuje pułapki, które psują cache (zmiana kolejności narzędzi MCP, modyfikacja konfiguracji w trakcie rozmowy).

Automatyczna kompakcja:

Gdy kontekst przekroczy próg, Codex wywołuje /responses/compact, co zwraca skompresowaną wersję rozmowy. Model zachowuje utajone zrozumienie poprzez nieprzejrzysty encrypted_content.

Zero Data Retention (ZDR):

Dla klientów, którzy nie chcą, aby ich dane były przechowywane, encrypted_content pozwala na zachowanie rozumowania modelu między turami bez przechowywania danych po stronie serwera.

Pierwszy artykuł z serii — kolejne obejmą architekturę CLI, implementację narzędzi i sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub

Scaling PostgreSQL: 800 milionów użytkowników ChatGPT

22 stycznia — OpenAI szczegółowo opisuje, jak PostgreSQL zasila ChatGPT i API dla 800 milionów użytkowników z milionami żądań na sekundę.

Metryka	Wartość
Użytkownicy	800 milionów
Przepustowość	Miliony QPS
Repliki	~50 read replicas multi-region
Opóźnienie p99	Dwucyfrowe ms po stronie klienta
Dostępność	Five-nines (99.999%)

Architektura:

Single primary Azure PostgreSQL flexible server
PgBouncer do connection pooling (opóźnienie połączenia: 50ms → 5ms)
Obciążenia write-heavy zmigrowane do Azure Cosmos DB
Cache locking w celu ochrony przed burzami cache miss
Kaskadowa replikacja w testach, aby przekroczyć 100 replik

Jedyny SEV-0 PostgreSQL w ciągu ostatnich 12 miesięcy: podczas wiralowego startu ChatGPT ImageGen (100M nowych użytkowników w tydzień, ruch zapisu x10).

🔗 Scaling PostgreSQL

Qwen: Qwen3-TTS open-source

22-23 stycznia — Alibaba udostępnia Qwen3-TTS jako open-source na licencji Apache 2.0.

Cecha	Szczegół
Licencja	Apache 2.0
Voice cloning	Tak
Wsparcie MLX-Audio	Dostępne

Instalacja:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS na X

Runway: Gen-4.5 Image to Video

21 stycznia — Runway dodaje funkcjonalność Image to Video do Gen-4.5.

Funkcjonalność	Opis
Image to Video	Transformacja obrazu w kinowe wideo
Camera control	Precyzyjna kontrola kamery
Coherent narratives	Spójne narracje w czasie
Character consistency	Postacie, które pozostają spójne

Dostępne dla wszystkich płatnych planów Runway. Tymczasowa promocja: 15% zniżki.

🔗 Runway na X

Co to oznacza

Ten tydzień oznacza dojrzewanie narzędzi coding agents. Dwaj giganci (Anthropic i OpenAI) publikują szczegółową dokumentację techniczną na temat architektury swoich agentów — znak, że rynek przechodzi z fazy “demo” do fazy “produkcja”.

Po stronie infrastruktury, artykuł o PostgreSQL od OpenAI pokazuje, że architektura single-primary może wytrzymać skalę setek milionów użytkowników przy odpowiednich optymalizacjach.

Pojawienie się Claude’a w Excelu otwiera nowy front: AI zintegrowane bezpośrednio z codziennymi narzędziami produktywności.