Cerca

Notizie IA 23 Gen 2026: Claude in Excel, Tasks Claude Code, Codex Agent Loop

Notizie IA 23 Gen 2026: Claude in Excel, Tasks Claude Code, Codex Agent Loop

Settimana intensa per gli agenti IA

Dal 21 al 23 gennaio 2026, diversi annunci importanti riguardanti coding agents e infrastruttura. Anthropic lancia Claude in Excel e pubblica tre articoli sui sistemi multi-agente, OpenAI dettaglia l’architettura interna di Codex e la sua infrastruttura PostgreSQL, Qwen rende open-source il suo modello text-to-speech, e Runway aggiunge Image to Video a Gen-4.5.


Anthropic: Claude in Excel e Claude Code

Claude in Excel

23 gennaio — Claude è ora disponibile in Microsoft Excel in beta. L’integrazione permette di analizzare intere cartelle di lavoro Excel con le loro formule nidificate e dipendenze tra schede.

Funzionalità:

  • Comprensione dell’intera cartella di lavoro (formule, dipendenze multi-scheda)
  • Spiegazioni con citazioni a livello di cella
  • Aggiornamento delle ipotesi preservando le formule

Disponibile per gli abbonati Claude Pro, Max, Team ed Enterprise.

🔗 Claude in Excel


Claude Code v2.1.19: sistema Tasks

23 gennaio — La versione 2.1.19 introduce Tasks, un nuovo sistema di gestione delle attività per progetti complessi multi-sessione.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇮🇹 Stiamo trasformando i Todos in Tasks in Claude Code. I Tasks sono una nuova primitiva che aiuta Claude Code a tracciare e completare progetti più complicati e collaborare su di essi attraverso più sessioni o sotto-agenti.Thariq (@trq212), team Claude Code Anthropic

Funzionalità Tasks:

AspettoDettaglio
Archiviazione~/.claude/tasks (file, permette di costruire strumenti sopra)
CollaborazioneCLAUDE_CODE_TASK_LIST_ID=nome claude per condividere tra sessioni
DipendenzeTasks con dipendenze e blocchi memorizzati nei metadati
BroadcastAggiornamento di un Task trasmesso a tutte le sessioni sulla stessa Task List
CompatibilitàFunziona con claude -p e AgentSDK

A cosa serve: Su un progetto complesso (refactoring multi-file, migrazione, funzionalità lunga), Claude può suddividere il lavoro in tasks, tracciare cosa è fatto e cosa rimane. I tasks sono persistenti su disco — sopravvivono alla compattazione del contesto, alla chiusura della sessione e al riavvio. Più sessioni o sotto-agenti possono collaborare sulla stessa lista di attività in tempo reale.

In pratica: Claude crea tasks (TaskCreate), li elenca (TaskList), e aggiorna il loro stato (TaskUpdate: pending → in_progress → completed). Esempio su un refactoring di autenticazione:

#1 [completed] Migrare lo storage di sessione su Redis
#2 [in_progress] Implementare la rotazione dei refresh token
#3 [pending] Aggiungere test di integrazione OAuth
#4 [pending] Aggiornare la documentazione API

I tasks sono memorizzati in ~/.claude/tasks/ e possono essere condivisi tra sessioni via CLAUDE_CODE_TASK_LIST_ID.

Altre novità v2.1.19:

  • Abbreviazione $0, $1 per argomenti nei comandi personalizzati
  • VSCode session forking e riavvolgimento per tutti
  • Skills senza permessi vengono eseguite senza approvazione
  • CLAUDE_CODE_ENABLE_TASKS=false per disabilitare temporaneamente

🔗 CHANGELOG Claude Code | Thread @trq212


Claude Code v2.1.18: scorciatoie da tastiera personalizzabili

Versione precedente che aggiunge la possibilità di configurare scorciatoie da tastiera per contesto e creare sequenze chord.

Comando: /keybindings

⚠️ Nota: Questa funzionalità è attualmente in anteprima e non è disponibile per tutti gli utenti.

🔗 Documentazione Keybindings


Petri 2.0: audit di allineamento automatizzati

22 gennaio — Anthropic pubblica Petri 2.0, un aggiornamento del suo strumento di audit comportamentale automatizzato per modelli linguistici.

A cosa serve: Petri testa se un LLM potrebbe comportarsi in modo problematico — manipolazione, inganno, aggiramento delle regole. Lo strumento genera scenari realistici e osserva le risposte del modello per rilevare comportamenti indesiderati prima che si verifichino in produzione.

MiglioramentoDescrizione
70 nuovi scenariLibreria di seed estesa per coprire più casi limite
Mitigazioni eval-awarenessIl modello non deve sapere di essere testato — altrimenti adatta il suo comportamento. Petri 2.0 migliora il realismo degli scenari per evitare questa rilevazione.
Confronti frontierRisultati di valutazione per modelli recenti (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub


Blog: quando usare (o meno) sistemi multi-agente

23 gennaio — Anthropic pubblica una guida pragmatica sulle architetture multi-agente. Il messaggio principale: non usare multi-agente per impostazione predefinita.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇮🇹 Abbiamo visto team investire mesi costruendo elaborate architetture multi-agente solo per scoprire che un prompting migliorato su un singolo agente otteneva risultati equivalenti.

L’articolo identifica 3 casi in cui multi-agente porta davvero valore:

CasoProblemaSoluzione multi-agente
Inquinamento del contestoUn agente genera dati voluminosi di cui solo un riassunto è utile in seguitoUn sotto-agente recupera 2000 token di cronologia, restituisce solo “ordine consegnato” all’agente principale
ParallelizzazionePiù ricerche indipendenti da fareLanciare 5 agenti in parallelo su 5 fonti diverse invece di processarli sequenzialmente
SpecializzazioneTroppi strumenti (20+) in un singolo agente degradano la sua capacità di scegliere quello giustoSeparare in agenti specializzati: uno per CRM, uno per marketing, uno per messaggistica

La trappola da evitare: Dividere per tipo di lavoro (un agente pianifica, un altro implementa, un altro testa). Ogni passaggio perde contesto e degrada la qualità. È meglio che un singolo agente gestisca una funzionalità dall’inizio alla fine.

Costo reale: 3-10x più token di un singolo agente per lo stesso compito.

Altri articoli della serie:

Building agents with Skills (22 gen)

Invece di costruire agenti specializzati per dominio, Anthropic propone di costruire skills: collezioni di file (flussi di lavoro, script, best practice) che un agente generalista carica su richiesta.

Divulgazione progressiva in 3 livelli:

LivelloContenutoDimensione
1Metadati (nome, descrizione)~50 token
2File SKILL.md completo~500 token
3Documentazione di riferimento2000+ token

Ogni livello viene caricato solo se necessario. Risultato: un agente può avere centinaia di skills senza saturare il suo contesto.

🔗 Building agents with Skills


Anthropic identifica 8 trend per lo sviluppo software nel 2026.

Messaggio chiave: Gli ingegneri passano dallo scrivere codice al coordinare agenti che scrivono codice.

Sfumatura importante: L’IA viene utilizzata nel ~60% del lavoro, ma solo lo 0-20% può essere completamente delegato — la supervisione umana rimane essenziale.

AziendaRisultato
RakutenClaude Code su codebase vLLM (12.5M righe), 7h di lavoro autonomo
TELUS30% più veloce, 500k ore risparmiate
Zapier89% adozione IA, 800+ agenti interni

🔗 Eight trends 2026


OpenAI: architettura Codex e infrastruttura

Unrolling the Codex agent loop

23 gennaio — OpenAI apre le quinte di Codex CLI. Primo articolo di una serie sul funzionamento interno del loro agente software.

Cosa impariamo:

Il loop dell’agente è semplice in teoria: l’utente invia una richiesta → il modello genera una risposta o richiede uno strumento → l’agente esegue lo strumento → il modello riprende con il risultato → fino a una risposta finale. In pratica, le sottigliezze sono nella gestione del contesto.

Prompt caching — la chiave delle prestazioni:

Ogni turno di conversazione aggiunge contenuto al prompt. Senza ottimizzazione, è quadratico in token inviati. Il prompt caching permette di riutilizzare i calcoli dei turni precedenti. Condizione: il nuovo prompt deve essere un prefisso esatto di quello vecchio. OpenAI dettaglia le insidie che rompono la cache (cambiare l’ordine degli strumenti MCP, modificare la configurazione a metà conversazione).

Compattazione automatica:

Quando il contesto supera una soglia, Codex chiama /responses/compact che restituisce una versione compressa della conversazione. Il modello mantiene una comprensione latente via un encrypted_content opaco.

Zero Data Retention (ZDR):

Per i clienti che non vogliono che i loro dati siano memorizzati, encrypted_content permette di preservare il ragionamento del modello tra i turni senza memorizzare dati lato server.

Primo articolo di una serie — i prossimi copriranno l’architettura CLI, l’implementazione degli strumenti e il sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub


Scaling PostgreSQL: 800 milioni di utenti ChatGPT

22 gennaio — OpenAI dettaglia come PostgreSQL alimenta ChatGPT e l’API per 800 milioni di utenti con milioni di richieste al secondo.

MetricaValore
Utenti800 milioni
ThroughputMilioni di QPS
Repliche~50 read replicas multi-regione
Latenza p99Doppia cifra ms lato client
DisponibilitàFive-nines (99.999%)

Architettura:

  • Single primary Azure PostgreSQL flexible server
  • PgBouncer per connection pooling (latenza connessione: 50ms → 5ms)
  • Carichi di lavoro write-heavy migrati su Azure Cosmos DB
  • Cache locking per proteggere da tempeste di cache miss
  • Replicazione a cascata in test per superare 100 repliche

Unico SEV-0 PostgreSQL negli ultimi 12 mesi: durante il lancio virale di ChatGPT ImageGen (100M nuovi utenti in una settimana, traffico di scrittura x10).

🔗 Scaling PostgreSQL


Qwen: Qwen3-TTS open-source

22-23 gennaio — Alibaba rilascia Qwen3-TTS in open-source con licenza Apache 2.0.

CaratteristicaDettaglio
LicenzaApache 2.0
Voice cloning
Supporto MLX-AudioDisponibile

Installazione:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS su X


Runway: Gen-4.5 Image to Video

21 gennaio — Runway aggiunge la funzionalità Image to Video a Gen-4.5.

FunzionalitàDescrizione
Image to VideoTrasformazione di un’immagine in video cinematico
Camera controlControllo preciso della telecamera
Coherent narrativesNarrazioni coerenti nel tempo
Character consistencyPersonaggi che rimangono coerenti

Disponibile per tutti i piani a pagamento Runway. Promo temporanea: 15% di sconto.

🔗 Runway su X


Cosa significa

Questa settimana segna una maturazione degli strumenti di coding agents. I due giganti (Anthropic e OpenAI) pubblicano documentazioni tecniche dettagliate sull’architettura dei loro agenti — segno che il mercato passa dalla fase “demo” alla fase “produzione”.

Dal lato infrastruttura, l’articolo PostgreSQL di OpenAI mostra che un’architettura single-primary può reggere su scala di centinaia di milioni di utenti con le giuste ottimizzazioni.

L’arrivo di Claude in Excel apre un nuovo fronte: l’IA integrata direttamente negli strumenti di produttività quotidiani.


Fonti