Il 23 aprile 2026 segna una giornata intensa: OpenAI lancia GPT-5.5 con l’85% su ARC-AGI-2 e una tariffa API di $5/M token in entrata, mentre Anthropic apre la memoria persistente in beta per i suoi Managed Agents e pubblica un post-mortem su Claude Code. In parallelo, GitHub Copilot rilascia sette aggiornamenti in tre giorni, Kimi K2.6 distribuisce uno sciame (swarm) di 300 sotto-agenti, e SpaceX sigla una partnership di coding con Cursor.
GPT-5.5 : il modello frontier di OpenAI
23 aprile — OpenAI lancia GPT-5.5, il suo modello più potente a oggi, progettato per il lavoro reale e gli agenti. Migliora in modo significativo il coding agentico, l’uso del computer (computer use), il lavoro sulla conoscenza e la ricerca scientifica, mantenendo al contempo la latenza di GPT-5.4.
Disponibilità e prezzi
GPT-5.5 è disponibile immediatamente per gli abbonati ChatGPT Plus, Pro, Business ed Enterprise, oltre che in Codex. L’accesso API arriverà “molto presto”.
| Offerta | Accesso API | Entrata | Uscita |
|---|---|---|---|
| GPT-5.5 standard | Presto | $5 / M token | $30 / M token |
| GPT-5.5 Pro | Presto | $30 / M token | $180 / M token |
La finestra di contesto in Codex raggiunge 400K token. È disponibile una modalità Fast — 1,5× più veloce, 2,5× il costo.
Benchmark
| Valutazione | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE (interno) | 73.1% | 68.5% | — | — |
| SWE-Bench Pro | 58.6% | 57.7% | 64.3% | 54.2% |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| ARC-AGI-2 | 85.0% | 73.3% | 75.8% | 77.1% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
| BixBench (bioinformatica) | 80.5% | 74.0% | — | — |
GPT-5.5 è in testa sulla maggior parte dei benchmark, con un’eccezione notevole: SWE-Bench Pro, dove Claude Opus 4.7 mantiene il vantaggio (64.3% contro 58.6%).
Infrastruttura e sicurezza
Il modello è stato co-progettato con NVIDIA GB200/GB300 NVL72. Codex ha utilizzato GPT-5.5 per ottimizzare la propria infrastruttura, guadagnando un +20% di velocità di generazione dei token. Sul fronte della cybersicurezza, GPT-5.5 è classificato High nel Preparedness Framework di OpenAI (non Critical); il programma Trusted Access Cyber è stato esteso anche a lui.
Ricerca scientifica
Oltre al codice, GPT-5.5 ha aiutato a dimostrare un nuovo teorema sui numeri di Ramsey (combinatoria), verificato formalmente in Lean. Ha inoltre analizzato un dataset genomico di 62 campioni e 28.000 geni in pochi minuti — un compito che avrebbe richiesto mesi a un team di ricercatori.
« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »
🇮🇹 GPT-5.5 è notevolmente più intelligente e persistente di GPT-5.4, con prestazioni di coding migliori e un uso degli strumenti più affidabile. — Michael Truell, co-fondatore e CEO di Cursor
L’ondata degli agenti persistenti
Tre annunci importanti convergono il 23 aprile attorno all’agente persistente, capace di agire autonomamente per lunghi periodi e di trattenere il contesto da una sessione all’altra.
OpenAI Workspace Agents in ChatGPT
22 aprile — OpenAI presenta gli agenti di workspace (Workspace Agents): agenti condivisi che un team crea una sola volta, usa insieme in ChatGPT o Slack e migliora progressivamente. Alimentati da Codex nel cloud, possono eseguire attività complesse anche quando l’utente è disconnesso. I Workspace Agents sostituiscono gradualmente i GPT, che restano disponibili durante la transizione.
| Tipo di agente | Funzionalità |
|---|---|
| Verificatore software | Esamina richieste, confronta policy, crea ticket IT |
| Router feedback prodotto | Monitora Slack/supporto/forum → ticket prioritizzati |
| Generatore di report | Estrae dati il venerdì, crea grafici, sintesi |
| Agente di prospecting | Cerca lead, valuta, redige email, aggiorna CRM |
| Responsabile rischi terze parti | Valuta fornitori, produce report strutturato |
Disponibili in research preview per Business, Enterprise, Edu e Teachers; gratuiti fino al 6 maggio 2026, poi fatturazione in crediti.
Secondo Ankur Bhatt (AI Engineering, Rippling), ciò che prima richiedeva da 5 a 6 ore a settimana ai commerciali ora viene eseguito automaticamente in background su ogni opportunità.
Anthropic — Memoria per i Claude Managed Agents
23 aprile — La memoria per i Claude Managed Agents è disponibile in beta pubblica sulla Claude Platform. Gli agenti possono ora imparare da una sessione all’altra grazie a un livello di memoria montato direttamente su un file system: gli agenti utilizzano le stesse capacità bash e di esecuzione di codice che impiegano già per le attività agentiche.
| Funzionalità | Dettaglio |
|---|---|
| Store condivisibili | Più agenti, ambiti di accesso diversi (sola lettura / lettura-scrittura) |
| Accesso concorrente | Senza sovrascritture tra sessioni parallele |
| Registro di audit | Quale sessione, quale agente, quale memoria |
| Ripristino | Su qualsiasi versione precedente |
| Esportabilità | Memorie gestibili tramite l’API |
I risultati dei clienti illustrano l’impatto concreto:
| Cliente | Risultato |
|---|---|
| Rakuten | -97% di errori al primo passaggio, -27% di costo, -34% di latenza |
| Wisedocs | +30% di velocità di verifica documentale |
| Netflix | Continuità del contesto tra sessioni senza aggiornamento manuale |
| Ando | Memoria di piattaforma senza infrastruttura dedicata |
Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.
🇮🇹 La memoria nei Managed Agents ci permette di portare l’apprendimento continuo in produzione su larga scala. I nostri agenti distillano gli insegnamenti di ogni sessione, offrendo il 97% di errori in meno al primo passaggio, con il 27% di costo in meno e il 34% di latenza in meno. — Yusuke Kaji, General Manager AI for Business, Rakuten
Claude Code : post-mortem qualità e due nuove versioni
Post-mortem e reset dei limiti
23 aprile — Il team Claude Code ha pubblicato un post-mortem su tre problemi di qualità segnalati nel mese passato. Tutti sono corretti in v2.1.116+. I limiti di utilizzo sono stati azzerati per tutti gli abbonati.
Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.
🇮🇹 Nel corso del mese passato, alcuni di voi hanno segnalato un calo della qualità di Claude Code. Abbiamo indagato e pubblicato un post-mortem sui tre problemi che abbiamo individuato. Tutti sono corretti in v2.1.116+ e abbiamo azzerato i limiti di utilizzo per tutti gli abbonati. — @ClaudeDevs
v2.1.117 e v2.1.118
| Versione | Funzionalità principali |
|---|---|
| v2.1.118 | Modalità visiva Vim (v/V) con selezione e operatori; /usage unificato (fonde /cost e /stats); temi personalizzati in /theme; hook che invocano strumenti MCP tramite type: "mcp_tool"; DISABLE_UPDATES rigoroso; ereditarietà delle impostazioni gestite di Windows tramite WSL |
| v2.1.117 | Sforzo predefinito passato a high per Pro/Max su Opus 4.6 e Sonnet 4.6 (era medium); fork di sotto-agenti attivabile su build esterne; glob/Grep sostituiti da bfs/ugrep integrati per ricerche più rapide; fix delle sessioni Opus 4.7 (contesto 1M calcolato correttamente); fix Bedrock+Opus 4.7 con thinking disattivato |
Nuovi connettori Claude per la vita quotidiana
23 aprile — Anthropic amplia il suo repertorio di connettori alle applicazioni consumer. Da luglio 2025, erano disponibili più di 200 connettori per strumenti professionali; questo aggiornamento aggiunge 15 servizi di uso quotidiano.
| Applicazione | Categoria |
|---|---|
| AllTrails | Escursionismo |
| Audible | Audiolibri |
| Booking.com | Viaggi |
| Instacart | Spesa online |
| Intuit Credit Karma | Finanza |
| Intuit TurboTax | Fiscalità |
| Resy | Prenotazioni ristoranti |
| Spotify | Musica |
| StubHub | Biglietteria |
| Taskrabbit | Servizi a domicilio |
| Thumbtack | Professionisti locali |
| TripAdvisor | Viaggi |
| Uber | Trasporti |
| Uber Eats | Consegna pasti |
| Viator | Attività turistiche |
Claude suggerisce ora automaticamente i connettori pertinenti in base al contesto della conversazione. Disponibili su tutti i piani (gratis incluso), web, desktop e mobile (mobile in beta). Nessun posizionamento a pagamento né risposta sponsorizzata; i dati di un’app non vengono usati per addestrare i modelli.
GitHub Copilot — Sette aggiornamenti in tre giorni
GitHub Copilot ha pubblicato sette voci nel suo changelog tra il 22 e il 23 aprile.
Chat per le pull request (3 nuove capacità)
23 aprile — Copilot Chat integra ora tre capacità per le pull request, accessibili tramite github.com/copilot o il pulsante Copilot sui diff (preview pubblica):
- Comprensione della PR (pull request understanding) : commenti, cambiamenti, commit e review integrati come contesto
- Review della PR : review strutturata su richiesta
- Riassunto della PR : riassunto conciso delle modifiche
🔗 Miglioramenti di Copilot Chat per le pull request
Sessioni di agente controllabili da issue e progetti
23 aprile — Il cloud agent è ora controllabile direttamente da issue e board di progetto GitHub: indicatore di sessione nell’intestazione dell’issue, pannello laterale di avanzamento, sessioni abilitate di default in tutte le viste dei progetti.
Debug strutturato delle stack trace sul web
23 aprile — Copilot Chat su github.com guida ora l’analisi delle stack trace in sei passaggi strutturati: cosa è fallito, perché, la causa radice, le prove tratte dal codice, il livello di fiducia e le verifiche successive.
BYOK VS Code disponibile (GA)
22 aprile — Bring Your Own Key (porta la tua chiave API) è in disponibilità generale per gli utenti Copilot Business ed Enterprise in VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure sono supportati, così come i modelli locali tramite Ollama e Foundry Local. La fatturazione è diretta tramite il provider scelto, al netto delle quote Copilot.
C++ Language Server in preview pubblica per Copilot CLI
22 aprile — Il Microsoft C++ Language Server (motore IntelliSense di Visual Studio/VS Code) è disponibile in preview pubblica per Copilot CLI. Fornisce dati semantici precisi (definizioni dei simboli, riferimenti, gerarchie di chiamate, tipi) in sostituzione della ricerca grep iterativa. Prerequisito: autenticazione Copilot CLI + compile_commands.json.
Nuove iscrizioni Business self-serve sospese
22 aprile — GitHub sospende le nuove iscrizioni self-serve per Copilot Business sui piani GitHub Free e GitHub Team. I clienti esistenti non sono interessati.
Campo used_copilot_cloud_agent nelle metriche API
23 aprile — A seguito del rebranding “coding agent” → “cloud agent”, l’API metrics aggiunge il campo used_copilot_cloud_agent nei report utenti (1 giorno e 28 giorni mobili). Il vecchio campo used_copilot_coding_agent è mantenuto fino al 1° agosto 2026.
Gemini CLI v0.39.0 e Deep Think per tutti gli Ultra
Gemini CLI v0.39.0
23 aprile — Google pubblica Gemini CLI v0.39.0, versione stabile contrassegnata “Latest”. Il punto forte è il nuovo comando /memory inbox per rivedere e convalidare le skills estratte automaticamente dal CLI durante le sessioni di lavoro.
| Funzionalità | Descrizione |
|---|---|
/memory inbox | Revisione delle skills estratte automaticamente |
invoke_subagent unificato | Strumento sotto-agente rifattorizzato in un’interfaccia unica |
| Formattazione compatta | Migliore leggibilità in modalità compatta |
| Plan Mode — conferme | Convalida richiesta prima dell’attivazione delle skills |
| Avvio alleggerito | Processo padre leggero per un avvio più rapido |
| Migrazione JSONL streaming | Registrazione delle sessioni chat in JSONL |
Scorciatoie da tastiera aggiunte: Ctrl+Backspace per la cancellazione parola per parola (Windows Terminal), Ctrl+Shift+G.
Deep Think aperto a tutti gli abbonati Ultra
22 aprile — Google apre la modalità Deep Think (ragionamento approfondito, extended thinking) all’intera base di abbonati Gemini Ultra. Questa modalità era precedentemente ad accesso limitato; ora è disponibile direttamente dal menu strumenti dell’app Gemini (web e mobile).
Kimi K2.6 : sciame di 300 sotto-agenti e benchmark open-weights
Agent Swarm — 300 sotto-agenti paralleli
23 aprile — Moonshot AI lancia Kimi K2.6 Agent Swarm: un sistema in grado di distribuire 300 sotto-agenti in parallelo su 4.000 step per esecuzione, contro 100 agenti e 1.500 step per K2.5.
| Capacità | K2.5 | K2.6 |
|---|---|---|
| Sotto-agenti paralleli | 100 | 300 |
| Step per esecuzione | 1.500 | 4.000 |
| Tipi di output | Testo chat | 100+ file reali, review da 100.000 parole, dataset da 20.000 righe |
I sotto-agenti combinano competenze eterogenee: ricerca web, analisi dati, coding, scrittura long-form e generazione visiva. Disponibile su kimi.com/agent-swarm.
Benchmark: numero 1 open-weights
23 aprile — Kimi K2.6 raggiunge il primo posto tra i modelli open-weights su due benchmark: - Design Arena : stessa fascia di performance di Claude Opus 4.7
- MathArena open (modalità Think) : davanti a GLM 5.1
SpaceXAI × Cursor e Grok Imagine
Partnership SpaceXAI × Cursor
22 aprile — SpaceXAI (entità nata dall’avvicinamento xAI/SpaceX) e Cursor annunciano una partnership per creare “l’IA per la codifica e il lavoro della conoscenza più performante al mondo”. SpaceX porta il supercomputer Colossus (equivalente a un milione di H100); Cursor gli concede il diritto di acquisire la società più avanti nel 2026 per $60 miliardi, oppure di pagare $10 miliardi per la sola collaborazione.
Grok Imagine — Template personalizzati condivisibili
22 aprile — Gli abbonati SuperGrok e Premium+ possono ora creare template personalizzati in Grok Imagine e condividerli pubblicamente.
NVIDIA × Google Cloud Next
22 aprile — Al Google Cloud Next (Las Vegas), NVIDIA e Google Cloud annunciano diversi importanti progressi attorno all’infrastruttura IA agentica.
| Annuncio | Dettaglio |
|---|---|
| Instance A5X (Vera Rubin NVL72) | Fino a 960 000 GPU Rubin in cluster multisito, 10× meno costose per token, 10× più throughput per megawatt |
| Gemini su Google Distributed Cloud | Preview con GPU Blackwell e Blackwell Ultra — sovranità dei dati |
| Confidential VM Blackwell | Prima offerta di confidential computing Blackwell nel cloud pubblico |
| Nemotron 3 Super | Disponibile sulla Gemini Enterprise Agent Platform |
| NeMo RL API | Reinforcement Learning gestito su larga scala |
Kling AI Video 3.0 — Modalità 4K nativa
23 aprile — Kling AI lancia la modalità 4K nativa nella sua serie Video 3.0. La generazione 4K avviene in un solo clic, senza un ulteriore passaggio di upscaling. La coerenza visiva (personaggi, testi, stili, illuminazione) è garantita in risoluzione nativa per la produzione di fascia alta. Disponibile anche tramite fal.ai per le aziende.
Kling AI organizza contemporaneamente un 4K Short Film Creative Contest, concorso globale che invita i creatori a presentare cortometraggi realizzati con la nuova modalità.
ChatGPT for Clinicians e OpenAI Privacy Filter
ChatGPT for Clinicians + HealthBench Professional
22 aprile — OpenAI lancia ChatGPT for Clinicians, una versione gratuita per i professionisti sanitari verificati negli Stati Uniti (medici, nurse practitioner, assistenti medici, farmacisti). Il servizio include l’accesso ai modelli frontier per le domande cliniche complesse, skill per workflow ripetitivi (lettere di riferimento, autorizzazioni preventive), ricerca clinica citata in tempo reale e generazione automatica dei crediti di formazione continua (CME). Il trattamento HIPAA è disponibile come opzione tramite accordo.
OpenAI pubblica anche HealthBench Professional, un benchmark aperto che valuta l’IA su compiti clinici reali (oltre 700 000 risposte valutate da medici). GPT-5.4 in ChatGPT for Clinicians supera i medici umani su questo benchmark in condizioni senza limiti di tempo e con accesso al web.
OpenAI Privacy Filter
22 aprile — OpenAI pubblica Privacy Filter, un modello open-weight (Apache 2.0) per rilevare e mascherare le informazioni personalmente identificabili (Personally Identifiable Information, PII) nel testo. Il modello gira in locale (nessun dato inviato a un server), supporta 128K token di contesto e raggiunge un punteggio F1 del 97.43% sul benchmark PII-Masking-300k.
| Caratteristica | Valore |
|---|---|
| Architettura | Classificatore di token bidirezionale (decodifica Viterbi vincolata) |
| Dimensione | 1.5B parametri totali, 50M attivi |
| Contesto | 128 000 token |
| Licenza | Apache 2.0 (Hugging Face + GitHub) |
| F1 | 97.43% su PII-Masking-300k corretto |
Categorie di PII coperte: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (password e chiavi API).
Perplexity e Cohere
Perplexity integra Kimi K2.6
23 aprile — Kimi K2.6 di Moonshot AI è ora disponibile per tutti gli abbonati Pro e Max di Perplexity.
Cohere — W4A8 production-ready in vLLM
22 aprile — Cohere annuncia l’integrazione della sua inferenza W4A8 (quantizzazione a 4 bit per i pesi, 8 bit per le attivazioni) in vLLM. Risultati su GPU Hopper rispetto a W4A16: +58% nel tempo al primo token (Time To First Token) e +45% nel tempo per token di output (Time Per Output Token). L’integrazione punta in primo luogo ai modelli MoE Command A su larga scala in produzione.
Brevi
Suno numero 1 nell’App Store musica
21 aprile — Suno, la piattaforma di generazione musicale IA, raggiunge il primo posto dell’App Store nella categoria musica. Il CEO Mikey Shulman annuncia: «The future of music is one where everyone enjoys creating. »
Anthropic Economic Index Survey
22 aprile — Anthropic lancia l’Anthropic Economic Index Survey, un’indagine mensile condotta tramite Anthropic Interviewer su un campione casuale di utenti Claude. L’obiettivo è raccogliere dati qualitativi sull’impatto economico dell’IA: attività delegate, guadagni di produttività, evoluzione dei ruoli. I risultati alimenteranno i futuri report Anthropic Economic Index.
Anthropic — Agenti MCP in produzione: i numeri
22 aprile — Un articolo tecnico di Anthropic documenta i benefici di MCP per gli agenti di produzione: gli SDK MCP superano 300 milioni di download al mese, la ricerca degli strumenti (tool search) riduce del 85% i token di definizione degli strumenti, e le chiamate agli strumenti programmatiche (programmatic tool calling) riducono l’uso di token del 37% su workflow multi-step complessi.
OpenAI — WebSockets nell’API Responses: guadagno del 40% di latenza
22 aprile — Articolo retrospettivo di OpenAI che spiega come la modalità WebSocket nell’API Responses riduca del 40% la latenza dei loop degli agenti. La connessione persistente mantiene una cache in memoria dello stato delle risposte precedenti, evitando di rielaborare l’intera cronologia a ogni chiamata. Già in produzione: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).
Perplexity Research — Addestramento di modelli di ricerca aumentata
22 aprile — Perplexity pubblica una ricerca sul suo pipeline SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) per migliorare la qualità delle risposte di ricerca. Risultato chiave: modelli Qwen post-addestrati raggiungono la factualità dei modelli GPT a costi inferiori.
Cosa significa
Il 23 aprile 2026 delinea due tendenze convergenti. Da un lato, GPT-5.5 conferma che OpenAI ha ripreso la leadership sui benchmark agentici (Terminal-Bench, ARC-AGI-2, OSWorld) dopo diversi mesi in cui Claude Opus 4.7 dominava. Il divario resta ridotto su SWE-Bench Pro, dove Anthropic mantiene il vantaggio — segno che entrambi i laboratori convergono sugli stessi casi d’uso prioritari.
Dall’altro lato, la giornata segna l’ingresso nell’era degli agenti persistenti con memoria: OpenAI Workspace Agents, Anthropic Managed Agents Memory e Kimi K2.6 Agent Swarm arrivano contemporaneamente con approcci diversi (integrazione Slack, filesystem-based, sciame di sotto-agenti), ma con lo stesso obiettivo — far sì che l’agente ricordi, impari e agisca senza supervisione costante. I numeri Rakuten (-97% di errori, -27% di costo) forniscono una prima misura industriale dell’impatto.
GitHub Copilot continua la sua strategia di integrazione profonda in GitHub.com (PR chat, sessioni agent dalle issue, stack trace strutturate) aprendo al contempo l’esterno tramite BYOK. Il BYOK VS Code GA segnala che Copilot si posiziona tanto come interfaccia quanto come modello.
Fonti
- GPT-5.5 — OpenAI
- Tweet OpenAI GPT-5.5
- Workspace Agents — OpenAI
- Tweet Workspace Agents
- ChatGPT for Clinicians
- OpenAI Privacy Filter
- WebSockets API Responses — OpenAI
- Mémoire Managed Agents — Anthropic
- Connecteurs vie quotidienne — Anthropic
- Tweet connecteurs — @claudeai
- Post-mortem Claude Code — @ClaudeDevs
- Tweet @bcherny
- CHANGELOG Claude Code
- MCP production agents — Anthropic
- Anthropic Economic Index Survey
- Copilot Chat PR improvements
- Copilot agent sessions depuis issues
- Copilot débogage stack traces
- Copilot BYOK VS Code GA
- Copilot C++ Language Server
- Copilot Business self-serve pause
- Copilot métriques cloud agent
- Gemini CLI v0.39.0
- Gemini Deep Think Ultra — @GeminiApp
- Kimi K2.6 Agent Swarm — @Kimi_Moonshot
- Kimi K2.6 Design Arena
- Kimi K2.6 MathArena
- SpaceXAI × Cursor — @SpaceX
- Grok Imagine templates — @imagine
- NVIDIA × Google Cloud Next
- Kling AI Video 3.0 Mode 4K
- Kling AI 4K Short Film Contest
- Perplexity Kimi K2.6
- Perplexity Research Search-Augmented LMs
- Cohere W4A8 vLLM
- Suno numéro 1 App Store
Questo documento è stato tradotto dalla versione fr alla lingua it utilizzando il modello gpt-5.4-mini. Per ulteriori informazioni sul processo di traduzione, consulta https://gitlab.com/jls42/ai-powered-markdown-translator