Upptagen vecka för AI-agenter
Från 21 till 23 januari 2026, flera stora tillkännagivanden gällande coding agents och infrastruktur. Anthropic lanserar Claude i Excel och publicerar tre artiklar om multi-agent-system, OpenAI detaljerar den interna arkitekturen för Codex och dess PostgreSQL-infrastruktur, Qwen släpper sin text-to-speech-modell som open-source, och Runway lägger till Image to Video i Gen-4.5.
Anthropic: Claude i Excel och Claude Code
Claude i Excel
23 januari — Claude är nu tillgänglig i Microsoft Excel i beta. Integrationen gör det möjligt att analysera kompletta Excel-arbetsböcker med deras kapslade formler och beroenden mellan flikar.
Funktioner:
- Förståelse av hela arbetsboken (formler, beroenden över flera flikar)
- Förklaringar med citeringar på cellnivå
- Uppdatering av antaganden med bibehållna formler
Tillgängligt för prenumeranter av Claude Pro, Max, Team och Enterprise.
Claude Code v2.1.19: Tasks-system
23 januari — Version 2.1.19 introducerar Tasks, ett nytt uppgiftshanteringssystem för komplexa fler-sessionsprojekt.
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇸🇪 Vi omvandlar Todos till Tasks i Claude Code. Tasks är en ny primitiv som hjälper Claude Code att spåra och slutföra mer komplicerade projekt och samarbeta kring dem över flera sessioner eller underagenter. — Thariq (@trq212), Claude Code-teamet Anthropic
Tasks-funktioner:
| Aspekt | Detalj |
|---|---|
| Lagring | ~/.claude/tasks (filer, gör det möjligt att bygga verktyg ovanpå) |
| Samarbete | CLAUDE_CODE_TASK_LIST_ID=namn claude för att dela mellan sessioner |
| Beroenden | Tasks med beroenden och blockeringar lagrade i metadata |
| Broadcast | Uppdatering av en Task sänds till alla sessioner på samma Task List |
| Kompatibilitet | Fungerar med claude -p och AgentSDK |
Vad det är till för: På ett komplext projekt (refaktorisering av flera filer, migrering, lång funktion), kan Claude dela upp arbetet i tasks, spåra vad som är gjort och vad som återstår. Tasks lagras på disk — de överlever kontextkomprimering, stängning av session och omstart. Flera sessioner eller underagenter kan samarbeta på samma uppgiftslista i realtid.
I praktiken: Claude skapar tasks (TaskCreate), listar dem (TaskList), och uppdaterar deras status (TaskUpdate: pending → in_progress → completed). Exempel vid en autentiseringsrefaktorisering:
#1 [completed] Migrera sessionslagring till Redis
#2 [in_progress] Implementera rotation av refresh tokens
#3 [pending] Lägg till OAuth integrationstester
#4 [pending] Uppdatera API-dokumentation
Tasks lagras i ~/.claude/tasks/ och kan delas mellan sessioner via CLAUDE_CODE_TASK_LIST_ID.
Andra nyheter v2.1.19:
- Kortform
$0,$1för argument i anpassade kommandon - VSCode session forking och tillbakaspolning för alla
- Skills utan behörigheter körs utan godkännande
CLAUDE_CODE_ENABLE_TASKS=falseför att tillfälligt inaktivera
🔗 CHANGELOG Claude Code | Tråd @trq212
Claude Code v2.1.18: anpassningsbara kortkommandon
Föregående version som lägger till möjligheten att konfigurera kortkommandon per kontext och skapa ackordsekvenser.
Kommando: /keybindings
⚠️ Obs: Denna funktion är för närvarande i förhandsvisning och är inte tillgänglig för alla användare.
Petri 2.0: automatiserade alignment audits
22 januari — Anthropic publicerar Petri 2.0, en uppdatering av deras verktyg för automatiserad beteendeauditering för språkmodeller.
Vad det är till för: Petri testar om en LLM skulle kunna bete sig problematiskt — manipulation, bedrägeri, kringgående av regler. Verktyget genererar realistiska scenarier och observerar modellens svar för att upptäcka oönskade beteenden innan de inträffar i produktion.
| Förbättring | Beskrivning |
|---|---|
| 70 nya scenarier | Utökat seed-bibliotek för att täcka fler kantfall |
| Eval-awareness mitigeringar | Modellen får inte veta att den testas — annars anpassar den sitt beteende. Petri 2.0 förbättrar realismen i scenarierna för att undvika denna upptäckt. |
| Frontier-jämförelser | Utvärderingsresultat för senaste modeller (Claude, GPT, Gemini) |
Blogg: när man ska använda (eller inte) multi-agent-system
23 januari — Anthropic publicerar en pragmatisk guide om multi-agent-arkitekturer. Huvudbudskapet: använd inte multi-agent som standard.
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇸🇪 Vi har sett team investera månader i att bygga utarbetade multi-agent-arkitekturer bara för att upptäcka att förbättrad prompting på en enda agent uppnådde likvärdiga resultat.
Artikeln identifierar 3 fall där multi-agent verkligen tillför värde:
| Fall | Problem | Multi-agent Lösning |
|---|---|---|
| Kontextförorening | En agent genererar omfattande data varav endast en sammanfattning är användbar efteråt | En underagent hämtar 2000 tokens historik, returnerar bara “order levererad” till huvudagenten |
| Parallellisering | Flera oberoende sökningar att göra | Starta 5 agenter parallellt på 5 olika källor istället för att bearbeta dem sekventiellt |
| Specialisering | För många verktyg (20+) i en enda agent försämrar dess förmåga att välja rätt | Dela upp i specialiserade agenter: en för CRM, en för marknadsföring, en för meddelanden |
Fällan att undvika: Dela upp efter typ av arbete (en agent planerar, en annan implementerar, en annan testar). Varje överlämning förlorar kontext och försämrar kvaliteten. Det är bättre att en enda agent hanterar en funktion från början till slut.
Verklig kostnad: 3-10x fler tokens än en enskild agent för samma uppgift.
Andra artiklar i serien:
Building agents with Skills (22 jan)
Istället för att bygga agenter specialiserade per domän, föreslår Anthropic att bygga skills: samlingar av filer (arbetsflöden, skript, bästa praxis) som en generalistagent laddar vid behov.
Progressivt avslöjande i 3 nivåer:
| Nivå | Innehåll | Storlek |
|---|---|---|
| 1 | Metadata (namn, beskrivning) | ~50 tokens |
| 2 | Fullständig SKILL.md-fil | ~500 tokens |
| 3 | Referensdokumentation | 2000+ tokens |
Varje nivå laddas endast om det är nödvändigt. Resultat: en agent kan ha hundratals skills utan att mätta sin kontext.
Eight trends 2026 (21 jan)
Anthropic identifierar 8 trender för mjukvaruutveckling 2026.
Nyckelbudskap: Ingenjörer går från att skriva kod till att koordinera agenter som skriver kod.
Viktig nyans: AI används i ~60% av arbetet, men bara 0-20% kan delegeras helt — mänsklig övervakning förblir avgörande.
| Företag | Resultat |
|---|---|
| Rakuten | Claude Code på vLLM-kodbas (12,5M rader), 7h autonomt arbete |
| TELUS | 30% snabbare, 500k timmar sparade |
| Zapier | 89% AI-adoption, 800+ interna agenter |
OpenAI: Codex-arkitektur och infrastruktur
Unrolling the Codex agent loop
23 januari — OpenAI öppnar kulisserna för Codex CLI. Första artikeln i en serie om den interna funktionen hos deras mjukvaruagent.
Vad vi lär oss:
Agent-loopen är enkel i teorin: användaren skickar en begäran → modellen genererar ett svar eller begär ett verktyg → agenten kör verktyget → modellen återupptar med resultatet → till ett slutgiltigt svar. I praktiken ligger subtiliteterna i kontexthanteringen.
Prompt caching — nyckeln till prestanda:
Varje konversationsrunda lägger till innehåll i prompten. Utan optimering är det kvadratiskt i skickade tokens. Prompt caching gör det möjligt att återanvända beräkningar från tidigare rundor. Villkor: den nya prompten måste vara ett exakt prefix av den gamla. OpenAI detaljerar fallgroparna som bryter cachen (ändra ordning på MCP-verktyg, ändra konfiguration mitt i konversationen).
Automatisk komprimering:
När kontexten överskrider en tröskel, anropar Codex /responses/compact vilket returnerar en komprimerad version av konversationen. Modellen behåller en latent förståelse via ett ogenomskinligt encrypted_content.
Zero Data Retention (ZDR):
För kunder som inte vill att deras data ska lagras, tillåter encrypted_content att bevara modellens resonemang mellan rundor utan att lagra data på serversidan.
Första artikeln i en serie — de kommande kommer att täcka CLI-arkitektur, verktygsimplementering och sandboxing.
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL: 800 miljoner ChatGPT-användare
22 januari — OpenAI detaljerar hur PostgreSQL driver ChatGPT och API:et för 800 miljoner användare med miljontals förfrågningar per sekund.
| Mätvärde | Värde |
|---|---|
| Användare | 800 miljoner |
| Genomströmning | Miljontals QPS |
| Replikor | ~50 multi-region read replicas |
| p99 Latency | Dubbelsiffriga ms klientsida |
| Tillgänglighet | Five-nines (99.999%) |
Arkitektur:
- Single primary Azure PostgreSQL flexible server
- PgBouncer för connection pooling (anslutningslatens: 50ms → 5ms)
- Skrivintensiva arbetsbelastningar migrerade till Azure Cosmos DB
- Cache locking för att skydda mot cache miss-stormar
- Kaskadreplikering i test för att överstiga 100 replikor
Enda SEV-0 PostgreSQL under de senaste 12 månaderna: under den virala lanseringen av ChatGPT ImageGen (100M nya användare på en vecka, skrivtrafik x10).
Qwen: Qwen3-TTS open-source
22-23 januari — Alibaba släpper Qwen3-TTS som open-source under Apache 2.0-licens.
| Egenskap | Detalj |
|---|---|
| Licens | Apache 2.0 |
| Voice cloning | Ja |
| MLX-Audio stöd | Tillgängligt |
Installation:
uv pip install -U mlx-audio --prerelease=allow
Runway: Gen-4.5 Image to Video
21 januari — Runway lägger till Image to Video-funktionalitet i Gen-4.5.
| Funktionalitet | Beskrivning |
|---|---|
| Image to Video | Transformation av en bild till filmisk video |
| Camera control | Exakt kamerakontroll |
| Coherent narratives | Sammanhängande berättelser över tid |
| Character consistency | Karaktärer som förblir konsekventa |
Tillgängligt för alla betalda Runway-planer. Tillfällig kampanj: 15% rabatt.
Vad detta innebär
Denna vecka markerar en mognad av verktyg för coding agents. De två jättarna (Anthropic och OpenAI) publicerar detaljerad teknisk dokumentation om arkitekturen för sina agenter — ett tecken på att marknaden går från “demo”-fasen till “produktions”-fasen.
På infrastruktursidan visar PostgreSQL-artikeln från OpenAI att en single-primary-arkitektur kan hålla i skalan av hundratals miljoner användare med rätt optimeringar.
Ankomsten av Claude i Excel öppnar en ny front: AI integrerad direkt i dagliga produktivitetsverktyg.