Drukke week voor AI-agenten
Van 21 tot 23 januari 2026, diverse grote aankondigingen op het gebied van coding agents en infrastructuur. Anthropic lanceert Claude in Excel en publiceert drie artikelen over multi-agent systemen, OpenAI detailleert de interne architectuur van Codex en zijn PostgreSQL-infrastructuur, Qwen maakt zijn text-to-speech model open-source, en Runway voegt Image to Video toe aan Gen-4.5.
Anthropic: Claude in Excel en Claude Code
Claude in Excel
23 januari — Claude is nu beschikbaar in Microsoft Excel in bèta. De integratie maakt het mogelijk om complete Excel-werkmappen te analyseren met hun geneste formules en afhankelijkheden tussen tabbladen.
Functionaliteiten:
- Begrip van de volledige werkmap (formules, multi-tab afhankelijkheden)
- Uitleg met citaten op celniveau
- Bijwerken van aannames met behoud van formules
Beschikbaar voor abonnees van Claude Pro, Max, Team en Enterprise.
Claude Code v2.1.19: Tasks systeem
23 januari — Versie 2.1.19 introduceert Tasks, een nieuw taakbeheersysteem voor complexe multi-sessie projecten.
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇳🇱 We veranderen Todos in Tasks in Claude Code. Tasks zijn een nieuwe primitieve die Claude Code helpen complexere projecten te volgen en te voltooien en eraan samen te werken over meerdere sessies of subagenten heen. — Thariq (@trq212), Claude Code team Anthropic
Tasks functionaliteiten:
| Aspect | Detail |
|---|---|
| Opslag | ~/.claude/tasks (bestanden, maakt het mogelijk tools erop te bouwen) |
| Samenwerking | CLAUDE_CODE_TASK_LIST_ID=naam claude om te delen tussen sessies |
| Afhankelijkheden | Tasks met afhankelijkheden en blokkades opgeslagen in metadata |
| Broadcast | Update van een Task uitgezonden naar alle sessies op dezelfde Task List |
| Compatibiliteit | Werkt met claude -p en AgentSDK |
Waar het voor dient: Bij een complex project (multi-file refactoring, migratie, lange feature), kan Claude het werk opsplitsen in tasks, bijhouden wat gedaan is en wat resteert. De tasks worden opgeslagen op schijf — ze overleven context compaction, sessie afsluiten en herstarten. Meerdere sessies of subagenten kunnen in real-time samenwerken aan dezelfde takenlijst.
In de praktijk: Claude maakt tasks (TaskCreate), lijst ze op (TaskList), en update hun status (TaskUpdate: pending → in_progress → completed). Voorbeeld bij een authenticatie refactoring:
#1 [completed] Sessieopslag migreren naar Redis
#2 [in_progress] Refresh token rotatie implementeren
#3 [pending] OAuth integratietests toevoegen
#4 [pending] API-documentatie bijwerken
De tasks worden opgeslagen in ~/.claude/tasks/ en kunnen gedeeld worden tussen sessies via CLAUDE_CODE_TASK_LIST_ID.
Andere nieuwigheden v2.1.19:
- Afkorting
$0,$1voor argumenten in custom commands - VSCode session forking en terugspoelen voor iedereen
- Skills zonder permissies worden uitgevoerd zonder goedkeuring
CLAUDE_CODE_ENABLE_TASKS=falseom tijdelijk uit te schakelen
🔗 CHANGELOG Claude Code | Thread @trq212
Claude Code v2.1.18: aanpasbare sneltoetsen
Vorige versie die de mogelijkheid toevoegt om sneltoetsen per context te configureren en chord sequenties te maken.
Commando: /keybindings
⚠️ Let op: Deze functie is momenteel in preview en is niet beschikbaar voor alle gebruikers.
Petri 2.0: geautomatiseerde alignment audits
22 januari — Anthropic publiceert Petri 2.0, een update van zijn geautomatiseerde gedragsauditingtool voor taalmodellen.
Waar het voor dient: Petri test of een LLM zich problematisch zou kunnen gedragen — manipulatie, misleiding, omzeiling van regels. De tool genereert realistische scenario’s en observeert de reacties van het model om ongewenst gedrag te detecteren voordat het zich voordoet in productie.
| Verbetering | Beschrijving |
|---|---|
| 70 nieuwe scenario’s | Uitgebreide seed-bibliotheek om meer randgevallen te dekken |
| Eval-awareness mitigaties | Het model mag niet weten dat het getest wordt — anders past het zijn gedrag aan. Petri 2.0 verbetert het realisme van de scenario’s om deze detectie te vermijden. |
| Frontier vergelijkingen | Evaluatieresultaten voor recente modellen (Claude, GPT, Gemini) |
Blog: wanneer multi-agent systemen te gebruiken (of niet)
23 januari — Anthropic publiceert een pragmatische gids over multi-agent architecturen. De belangrijkste boodschap: gebruik geen multi-agent als standaard.
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇳🇱 We hebben teams maanden zien investeren in het bouwen van uitgebreide multi-agent architecturen, alleen om te ontdekken dat verbeterde prompting op een enkele agent gelijkwaardige resultaten behaalde.
Het artikel identificeert 3 gevallen waarin multi-agent echt waarde toevoegt:
| Geval | Probleem | Multi-agent Oplossing |
|---|---|---|
| Contextvervuiling | Een agent genereert omvangrijke data waarvan alleen een samenvatting nuttig is achteraf | Een sub-agent haalt 2000 tokens aan geschiedenis op, stuurt alleen “bestelling geleverd” terug naar de hoofdagent |
| Parallellisatie | Meerdere onafhankelijke zoekopdrachten te doen | Start 5 agenten parallel op 5 verschillende bronnen in plaats van ze sequentieel te verwerken |
| Specialisatie | Te veel tools (20+) in een enkele agent degraderen zijn vermogen om de juiste te kiezen | Opsplitsen in gespecialiseerde agenten: een voor CRM, een voor marketing, een voor berichtenverkeer |
De valkuil om te vermijden: Verdelen per type werk (één agent plant, een andere implementeert, een andere test). Elke overdracht verliest context en degradeert de kwaliteit. Het is beter dat een enkele agent een feature van begin tot eind afhandelt.
Reële kosten: 3-10x meer tokens dan een enkele agent voor dezelfde taak.
Andere artikelen in de serie:
Building agents with Skills (22 jan)
In plaats van agenten te bouwen die gespecialiseerd zijn per domein, stelt Anthropic voor om skills te bouwen: verzamelingen van bestanden (workflows, scripts, best practices) die een generalistische agent op aanvraag laadt.
Progressieve openbaarmaking in 3 niveaus:
| Niveau | Inhoud | Grootte |
|---|---|---|
| 1 | Metadata (naam, beschrijving) | ~50 tokens |
| 2 | Volledig SKILL.md bestand | ~500 tokens |
| 3 | Referentiedocumentatie | 2000+ tokens |
Elk niveau wordt alleen geladen indien nodig. Resultaat: een agent kan honderden skills hebben zonder zijn context te verzadigen.
Eight trends 2026 (21 jan)
Anthropic identificeert 8 trends voor softwareontwikkeling in 2026.
Kernboodschap: Ingenieurs gaan van het schrijven van code naar het coördineren van agenten die code schrijven.
Belangrijke nuance: AI wordt gebruikt in ~60% van het werk, maar slechts 0-20% kan volledig gedelegeerd worden — menselijk toezicht blijft essentieel.
| Bedrijf | Resultaat |
|---|---|
| Rakuten | Claude Code op vLLM codebase (12.5M regels), 7u autonoom werk |
| TELUS | 30% sneller, 500k uren bespaard |
| Zapier | 89% AI-adoptie, 800+ interne agenten |
OpenAI: Codex architectuur en infrastructuur
Unrolling the Codex agent loop
23 januari — OpenAI opent de coulissen van Codex CLI. Eerste artikel van een reeks over de interne werking van hun software-agent.
Wat we leren:
De agent loop is in theorie eenvoudig: gebruiker stuurt een verzoek → model genereert een antwoord of vraagt om een tool → agent voert de tool uit → model hervat met het resultaat → tot een definitief antwoord. In de praktijk zitten de subtiliteiten in het contextbeheer.
Prompt caching — de sleutel tot prestaties:
Elke gespreksbeurt voegt inhoud toe aan de prompt. Zonder optimalisatie is dit kwadratisch in verzonden tokens. Prompt caching maakt het mogelijk berekeningen van vorige beurten te hergebruiken. Voorwaarde: de nieuwe prompt moet een exact voorvoegsel zijn van de oude. OpenAI detailleert de valkuilen die de cache breken (volgorde van MCP-tools wijzigen, configuratie wijzigen midden in gesprek).
Automatische compactie:
Wanneer de context een drempel overschrijdt, roept Codex /responses/compact aan wat een gecomprimeerde versie van het gesprek retourneert. Het model behoudt een latent begrip via een ondoorzichtige encrypted_content.
Zero Data Retention (ZDR):
Voor klanten die niet willen dat hun gegevens worden opgeslagen, maakt encrypted_content het mogelijk de redenering van het model tussen beurten te behouden zonder gegevens aan de serverzijde op te slaan.
Eerste artikel van een reeks — de volgende zullen CLI-architectuur, tool-implementatie en sandboxing behandelen.
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL: 800 miljoen ChatGPT-gebruikers
22 januari — OpenAI detailleert hoe PostgreSQL ChatGPT en de API aandrijft voor 800 miljoen gebruikers met miljoenen verzoeken per seconde.
| Metriek | Waarde |
|---|---|
| Gebruikers | 800 miljoen |
| Doorvoer | Miljoenen QPS |
| Replica’s | ~50 multi-regio read replica’s |
| p99 Latency | Dubbele cijfers ms klantzijde |
| Beschikbaarheid | Five-nines (99.999%) |
Architectuur:
- Single primary Azure PostgreSQL flexible server
- PgBouncer voor connection pooling (verbindingslatency: 50ms → 5ms)
- Schrijfintensieve workloads gemigreerd naar Azure Cosmos DB
- Cache locking om te beschermen tegen cache miss stormen
- Cascading replication in test om 100 replica’s te overschrijden
Enige SEV-0 PostgreSQL in de laatste 12 maanden: tijdens de virale lancering van ChatGPT ImageGen (100M nieuwe gebruikers in één week, schrijfverkeer x10).
Qwen: Qwen3-TTS open-source
22-23 januari — Alibaba brengt Qwen3-TTS uit als open-source onder Apache 2.0 licentie.
| Kenmerk | Detail |
|---|---|
| Licentie | Apache 2.0 |
| Voice cloning | Ja |
| MLX-Audio ondersteuning | Beschikbaar |
Installatie:
uv pip install -U mlx-audio --prerelease=allow
Runway: Gen-4.5 Image to Video
21 januari — Runway voegt Image to Video functionaliteit toe aan Gen-4.5.
| Functionaliteit | Beschrijving |
|---|---|
| Image to Video | Transformatie van een afbeelding naar filmische video |
| Camera control | Precieze camerabediening |
| Coherent narratives | Coherente verhalen in de tijd |
| Character consistency | Personages die consistent blijven |
Beschikbaar voor alle betaalde Runway plannen. Tijdelijke promo: 15% korting.
Wat dit betekent
Deze week markeert een rijping van coding agents tools. De twee giganten (Anthropic en OpenAI) publiceren gedetailleerde technische documentatie over de architectuur van hun agenten — een teken dat de markt overgaat van de “demo”-fase naar de “productie”-fase.
Aan de infrastructuurkant toont het PostgreSQL-artikel van OpenAI dat een single-primary architectuur stand kan houden op de schaal van honderden miljoenen gebruikers met de juiste optimalisaties.
De komst van Claude in Excel opent een nieuw front: AI direct geïntegreerd in dagelijkse productiviteitstools.