AI Nyheter 23 jan 2026: Claude i Excel, Tasks Claude Code, Codex Agent Loop

Upptagen vecka för AI-agenter

Från 21 till 23 januari 2026, flera stora tillkännagivanden gällande coding agents och infrastruktur. Anthropic lanserar Claude i Excel och publicerar tre artiklar om multi-agent-system, OpenAI detaljerar den interna arkitekturen för Codex och dess PostgreSQL-infrastruktur, Qwen släpper sin text-to-speech-modell som open-source, och Runway lägger till Image to Video i Gen-4.5.

Anthropic: Claude i Excel och Claude Code

Claude i Excel

23 januari — Claude är nu tillgänglig i Microsoft Excel i beta. Integrationen gör det möjligt att analysera kompletta Excel-arbetsböcker med deras kapslade formler och beroenden mellan flikar.

Funktioner:

Förståelse av hela arbetsboken (formler, beroenden över flera flikar)
Förklaringar med citeringar på cellnivå
Uppdatering av antaganden med bibehållna formler

Tillgängligt för prenumeranter av Claude Pro, Max, Team och Enterprise.

🔗 Claude i Excel

Claude Code v2.1.19: Tasks-system

23 januari — Version 2.1.19 introducerar Tasks, ett nytt uppgiftshanteringssystem för komplexa fler-sessionsprojekt.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇸🇪 Vi omvandlar Todos till Tasks i Claude Code. Tasks är en ny primitiv som hjälper Claude Code att spåra och slutföra mer komplicerade projekt och samarbeta kring dem över flera sessioner eller underagenter. — Thariq (@trq212), Claude Code-teamet Anthropic

Tasks-funktioner:

Aspekt	Detalj
Lagring	`~/.claude/tasks` (filer, gör det möjligt att bygga verktyg ovanpå)
Samarbete	`CLAUDE_CODE_TASK_LIST_ID=namn claude` för att dela mellan sessioner
Beroenden	Tasks med beroenden och blockeringar lagrade i metadata
Broadcast	Uppdatering av en Task sänds till alla sessioner på samma Task List
Kompatibilitet	Fungerar med `claude -p` och AgentSDK

Vad det är till för: På ett komplext projekt (refaktorisering av flera filer, migrering, lång funktion), kan Claude dela upp arbetet i tasks, spåra vad som är gjort och vad som återstår. Tasks lagras på disk — de överlever kontextkomprimering, stängning av session och omstart. Flera sessioner eller underagenter kan samarbeta på samma uppgiftslista i realtid.

I praktiken: Claude skapar tasks (TaskCreate), listar dem (TaskList), och uppdaterar deras status (TaskUpdate: pending → in_progress → completed). Exempel vid en autentiseringsrefaktorisering:

#1 [completed] Migrera sessionslagring till Redis
#2 [in_progress] Implementera rotation av refresh tokens
#3 [pending] Lägg till OAuth integrationstester
#4 [pending] Uppdatera API-dokumentation

Tasks lagras i ~/.claude/tasks/ och kan delas mellan sessioner via CLAUDE_CODE_TASK_LIST_ID.

Andra nyheter v2.1.19:

Kortform $0, $1 för argument i anpassade kommandon
VSCode session forking och tillbakaspolning för alla
Skills utan behörigheter körs utan godkännande
CLAUDE_CODE_ENABLE_TASKS=false för att tillfälligt inaktivera

🔗 CHANGELOG Claude Code | Tråd @trq212

Claude Code v2.1.18: anpassningsbara kortkommandon

Föregående version som lägger till möjligheten att konfigurera kortkommandon per kontext och skapa ackordsekvenser.

Kommando: /keybindings

⚠️ Obs: Denna funktion är för närvarande i förhandsvisning och är inte tillgänglig för alla användare.

🔗 Dokumentation Keybindings

Petri 2.0: automatiserade alignment audits

22 januari — Anthropic publicerar Petri 2.0, en uppdatering av deras verktyg för automatiserad beteendeauditering för språkmodeller.

Vad det är till för: Petri testar om en LLM skulle kunna bete sig problematiskt — manipulation, bedrägeri, kringgående av regler. Verktyget genererar realistiska scenarier och observerar modellens svar för att upptäcka oönskade beteenden innan de inträffar i produktion.

Förbättring	Beskrivning
70 nya scenarier	Utökat seed-bibliotek för att täcka fler kantfall
Eval-awareness mitigeringar	Modellen får inte veta att den testas — annars anpassar den sitt beteende. Petri 2.0 förbättrar realismen i scenarierna för att undvika denna upptäckt.
Frontier-jämförelser	Utvärderingsresultat för senaste modeller (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub

Blogg: när man ska använda (eller inte) multi-agent-system

23 januari — Anthropic publicerar en pragmatisk guide om multi-agent-arkitekturer. Huvudbudskapet: använd inte multi-agent som standard.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇸🇪 Vi har sett team investera månader i att bygga utarbetade multi-agent-arkitekturer bara för att upptäcka att förbättrad prompting på en enda agent uppnådde likvärdiga resultat.

Artikeln identifierar 3 fall där multi-agent verkligen tillför värde:

Fall	Problem	Multi-agent Lösning
Kontextförorening	En agent genererar omfattande data varav endast en sammanfattning är användbar efteråt	En underagent hämtar 2000 tokens historik, returnerar bara “order levererad” till huvudagenten
Parallellisering	Flera oberoende sökningar att göra	Starta 5 agenter parallellt på 5 olika källor istället för att bearbeta dem sekventiellt
Specialisering	För många verktyg (20+) i en enda agent försämrar dess förmåga att välja rätt	Dela upp i specialiserade agenter: en för CRM, en för marknadsföring, en för meddelanden

Fällan att undvika: Dela upp efter typ av arbete (en agent planerar, en annan implementerar, en annan testar). Varje överlämning förlorar kontext och försämrar kvaliteten. Det är bättre att en enda agent hanterar en funktion från början till slut.

Verklig kostnad: 3-10x fler tokens än en enskild agent för samma uppgift.

Andra artiklar i serien:

Building agents with Skills (22 jan)

Istället för att bygga agenter specialiserade per domän, föreslår Anthropic att bygga skills: samlingar av filer (arbetsflöden, skript, bästa praxis) som en generalistagent laddar vid behov.

Progressivt avslöjande i 3 nivåer:

Nivå	Innehåll	Storlek
1	Metadata (namn, beskrivning)	~50 tokens
2	Fullständig SKILL.md-fil	~500 tokens
3	Referensdokumentation	2000+ tokens

Varje nivå laddas endast om det är nödvändigt. Resultat: en agent kan ha hundratals skills utan att mätta sin kontext.

🔗 Building agents with Skills

Eight trends 2026 (21 jan)

Anthropic identifierar 8 trender för mjukvaruutveckling 2026.

Nyckelbudskap: Ingenjörer går från att skriva kod till att koordinera agenter som skriver kod.

Viktig nyans: AI används i ~60% av arbetet, men bara 0-20% kan delegeras helt — mänsklig övervakning förblir avgörande.

Företag	Resultat
Rakuten	Claude Code på vLLM-kodbas (12,5M rader), 7h autonomt arbete
TELUS	30% snabbare, 500k timmar sparade
Zapier	89% AI-adoption, 800+ interna agenter

🔗 Eight trends 2026

OpenAI: Codex-arkitektur och infrastruktur

Unrolling the Codex agent loop

23 januari — OpenAI öppnar kulisserna för Codex CLI. Första artikeln i en serie om den interna funktionen hos deras mjukvaruagent.

Vad vi lär oss:

Agent-loopen är enkel i teorin: användaren skickar en begäran → modellen genererar ett svar eller begär ett verktyg → agenten kör verktyget → modellen återupptar med resultatet → till ett slutgiltigt svar. I praktiken ligger subtiliteterna i kontexthanteringen.

Prompt caching — nyckeln till prestanda:

Varje konversationsrunda lägger till innehåll i prompten. Utan optimering är det kvadratiskt i skickade tokens. Prompt caching gör det möjligt att återanvända beräkningar från tidigare rundor. Villkor: den nya prompten måste vara ett exakt prefix av den gamla. OpenAI detaljerar fallgroparna som bryter cachen (ändra ordning på MCP-verktyg, ändra konfiguration mitt i konversationen).

Automatisk komprimering:

När kontexten överskrider en tröskel, anropar Codex /responses/compact vilket returnerar en komprimerad version av konversationen. Modellen behåller en latent förståelse via ett ogenomskinligt encrypted_content.

Zero Data Retention (ZDR):

För kunder som inte vill att deras data ska lagras, tillåter encrypted_content att bevara modellens resonemang mellan rundor utan att lagra data på serversidan.

Första artikeln i en serie — de kommande kommer att täcka CLI-arkitektur, verktygsimplementering och sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub

Scaling PostgreSQL: 800 miljoner ChatGPT-användare

22 januari — OpenAI detaljerar hur PostgreSQL driver ChatGPT och API:et för 800 miljoner användare med miljontals förfrågningar per sekund.

Mätvärde	Värde
Användare	800 miljoner
Genomströmning	Miljontals QPS
Replikor	~50 multi-region read replicas
p99 Latency	Dubbelsiffriga ms klientsida
Tillgänglighet	Five-nines (99.999%)

Arkitektur:

Single primary Azure PostgreSQL flexible server
PgBouncer för connection pooling (anslutningslatens: 50ms → 5ms)
Skrivintensiva arbetsbelastningar migrerade till Azure Cosmos DB
Cache locking för att skydda mot cache miss-stormar
Kaskadreplikering i test för att överstiga 100 replikor

Enda SEV-0 PostgreSQL under de senaste 12 månaderna: under den virala lanseringen av ChatGPT ImageGen (100M nya användare på en vecka, skrivtrafik x10).

🔗 Scaling PostgreSQL

Qwen: Qwen3-TTS open-source

22-23 januari — Alibaba släpper Qwen3-TTS som open-source under Apache 2.0-licens.

Egenskap	Detalj
Licens	Apache 2.0
Voice cloning	Ja
MLX-Audio stöd	Tillgängligt

Installation:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS på X

Runway: Gen-4.5 Image to Video

21 januari — Runway lägger till Image to Video-funktionalitet i Gen-4.5.

Funktionalitet	Beskrivning
Image to Video	Transformation av en bild till filmisk video
Camera control	Exakt kamerakontroll
Coherent narratives	Sammanhängande berättelser över tid
Character consistency	Karaktärer som förblir konsekventa

Tillgängligt för alla betalda Runway-planer. Tillfällig kampanj: 15% rabatt.

🔗 Runway på X

Vad detta innebär

Denna vecka markerar en mognad av verktyg för coding agents. De två jättarna (Anthropic och OpenAI) publicerar detaljerad teknisk dokumentation om arkitekturen för sina agenter — ett tecken på att marknaden går från “demo”-fasen till “produktions”-fasen.

På infrastruktursidan visar PostgreSQL-artikeln från OpenAI att en single-primary-arkitektur kan hålla i skalan av hundratals miljoner användare med rätt optimeringar.

Ankomsten av Claude i Excel öppnar en ny front: AI integrerad direkt i dagliga produktivitetsverktyg.