Anthropic colpisce duro con Claude Sonnet 4.6, un modello che rivaleggia con Opus su molti compiti al prezzo di Sonnet. Parallelamente, Qwen pubblica il suo primo modello Qwen3.5 in open-weight con 397 miliardi di parametri, e Google integra Lyria 3 — il suo modello di generazione musicale — direttamente in Gemini.
Claude Sonnet 4.6: prestazioni Opus al prezzo Sonnet
17 febbraio — Anthropic lancia Claude Sonnet 4.6, descritto come il Sonnet più capace fino ad oggi. Il modello rappresenta un aggiornamento completo su coding, uso del computer (computer use), ragionamento a lungo contesto, pianificazione di agenti, lavoro intellettuale e design. Integra una finestra di contesto di 1 milione di token in beta.
Il posizionamento è chiaro: prestazioni che avrebbero richiesto un modello Opus sono ora accessibili alla tariffa Sonnet, ovvero 15 per milione di token (invariato rispetto a Sonnet 4.5). Sonnet 4.6 diventa il modello predefinito sui piani Free e Pro in claude.ai e Claude Cowork.
Benchmark e feedback degli utenti
In Claude Code, i tester hanno preferito Sonnet 4.6 a Sonnet 4.5 circa il 70% delle volte, riportando una migliore lettura del contesto prima della modifica del codice e un consolidamento della logica condivisa invece di duplicarla. Ancora più notevole: gli utenti hanno preferito Sonnet 4.6 a Opus 4.5 (il modello frontier di novembre 2025) il 59% delle volte, citando meno sovra-ingegnerizzazione, meno “pigrizia” e una migliore esecuzione delle istruzioni.
| Benchmark | Punteggio |
|---|---|
| SWE-bench Verified | 80.2% (con modifica del prompt) |
| OSWorld (computer use) | Progresso maggiore in 16 mesi |
| OfficeQA | Eguaglia Opus 4.6 |
| Vending-Bench Arena | Strategia emergente di investimento/pivot |
Il computer use progredisce significativamente: Sonnet 4.6 migliora anche la resistenza alle prompt injection rispetto a Sonnet 4.5, raggiungendo un livello paragonabile a Opus 4.6.
Aggiornamenti di prodotto associati
L’annuncio è accompagnato da diversi rilasci in disponibilità generale sull’API Claude: esecuzione di codice, memoria, chiamate a strumenti programmatici, ricerca di strumenti ed esempi di utilizzo di strumenti. La ricerca web e gli strumenti fetch integrano ora un filtraggio dinamico — Claude scrive ed esegue automaticamente codice per filtrare i risultati di ricerca, mantenendo solo il contenuto rilevante nel contesto.
🔗 Ricerca web migliorata con filtraggio dinamico
Per gli utenti di Claude in Excel, il componente aggiuntivo supporta ora i connettori MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponibile sui piani Pro, Max, Team ed Enterprise.
Anthropic misura l’autonomia degli agenti IA in condizioni reali
18 febbraio — Anthropic pubblica uno studio che analizza milioni di interazioni uomo-agente attraverso Claude Code e l’API pubblica, con un obiettivo: capire come gli umani gestiscono l’autonomia degli agenti nella pratica.
Risultati chiave
| Metrica | Valore |
|---|---|
| Durata massima autonoma (99.9° percentile) | ~45 minuti (raddoppiato in 3 mesi) |
| Auto-approve (utenti esperti) | 40%+ (vs 20% per i nuovi) |
| Quota di software engineering nel traffico API | ~50% |
| Azioni con guardrail | 80% |
| Azioni con umano nel loop | 73% |
| Azioni irreversibili | 0.8% |
Un risultato controintuitivo: gli utenti esperti aumentano sia il tasso di auto-approve SIA il tasso di interruzione. Passano da una supervisione azione per azione a un monitoraggio attivo con intervento mirato. Inoltre, Claude si ferma per chiedere chiarimenti più spesso di quanto gli umani lo interrompano, in particolare su compiti complessi.
Lo studio conclude che esiste un divario significativo tra capacità e utilizzo: l’autonomia che i modelli sono in grado di gestire supera ampiamente quella che viene loro concessa nella pratica — un fenomeno che i ricercatori chiamano “surplus di autonomia non distribuita”.
Anthropic: partnership con Ruanda e Infosys
17 febbraio — Parallelamente al lancio di Sonnet 4.6, Anthropic firma un protocollo d’intesa con il governo del Ruanda per distribuire Claude nei settori della sanità, dell’istruzione e della pubblica amministrazione. La partnership, condotta con il Ministero dell’ICT e dell’Innovazione, include la formazione dei dipendenti pubblici e il dispiegamento di un compagno di apprendimento IA in otto paesi africani.
Anthropic annuncia anche una collaborazione con Infosys per costruire agenti IA destinati alle telecomunicazioni e ad altre industrie regolamentate.
Qwen3.5-397B-A17B: primo open-weight della serie 3.5
16 febbraio — Alibaba Qwen pubblica Qwen3.5-397B-A17B, il primo modello open-weight della serie Qwen3.5. Si tratta di un progresso significativo con un’architettura ibrida che combina attenzione lineare e Mixture-of-Experts (MoE) sparsa.
| Caratteristica | Dettagli |
|---|---|
| Parametri totali | 397B (architettura ibrida MoE) |
| Architettura | Attenzione lineare ibrida + MoE sparsa |
| Throughput | Da 8.6x a 19.0x superiore a Qwen3-Max |
| Lingue | 201 lingue e dialetti |
| Licenza | Apache 2.0 |
| Addestramento | Apprendimento per rinforzo su larga scala |
| Specialità | Nativo multimodale, agenti reali |
Il modello è disponibile immediatamente su Hugging Face, ModelScope, Alibaba Cloud Model Studio e tramite Qwen Code. Con 201 lingue supportate e una licenza Apache 2.0, è uno dei modelli open-weight più ambiziosi del momento in termini di copertura linguistica e throughput di inferenza.
Google Lyria 3: la generazione musicale arriva in Gemini
18 febbraio — Google e DeepMind presentano Lyria 3, un modello di generazione musicale IA integrato direttamente nell’applicazione Gemini. Gli utenti possono creare tracce musicali di 30 secondi a partire da prompt testuali, foto o video, con generazione di testi personalizzati.
| Funzionalità | Dettagli |
|---|---|
| Input | Testo, immagini, video |
| Output | Tracce audio di 30 secondi |
| Personalizzazione | Vari stili musicali, testi generati |
| Disponibilità | Beta in Gemini (18+ anni) |
Lyria 3 dimostra una notevole flessibilità nelle combinazioni di strumenti e generi, permettendo creazioni che vanno dal jingle alle composizioni lo-fi. Il rilascio globale è progressivo.
OpenAI EVMbench: benchmark di sicurezza per smart contract
18 febbraio — OpenAI e Paradigm lanciano EVMbench, un benchmark che valuta la capacità degli agenti IA di rilevare, correggere e sfruttare le vulnerabilità negli smart contract Ethereum. Il benchmark si basa su 120 vulnerabilità curate provenienti da 40 audit (principalmente competizioni Code4rena).
| Modalità | Descrizione | GPT-5.3-Codex | GPT-5 (6 mesi) |
|---|---|---|---|
| Exploit | Eseguire attacchi di drenaggio | 72.2% | 31.9% |
| Detect | Revisionare e rilevare vulnerabilità | < copertura completa | - |
| Patch | Correggere preservando la funzionalità | < copertura completa | - |
Un risultato interessante: gli agenti IA hanno più successo nello sfruttamento (obiettivo esplicito) che nel rilevamento e nella correzione, dove spesso abbandonano dopo la prima vulnerabilità trovata. OpenAI ribadisce il suo impegno di $10M in crediti API per la sicurezza informatica difensiva.
Rapporto Tecnico GLM-5: Z.ai documenta il suo modello
18 febbraio — Z.ai pubblica il rapporto tecnico completo di GLM-5, dettagliando le innovazioni architettoniche del modello lanciato l’11 febbraio (744B parametri, 40B attivi, licenza MIT).
Tre innovazioni chiave documentate: Dynamic Sparse Attention (DSA) per ridurre i costi di addestramento e inferenza, un’infrastruttura RL asincrona che disaccoppia generazione e addestramento, e algoritmi RL per agenti che consentono interazioni complesse e a lungo orizzonte. Il rapporto è disponibile su arXiv.
🔗 Tweet @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya: IA multilingue ultracompatta
17 febbraio — Cohere Labs presenta Tiny Aya, una famiglia di piccoli modelli linguistici che supportano 70+ lingue con soli 3.35 miliardi di parametri. L’obiettivo: rendere l’IA multilingue accessibile ovunque, anche sui telefoni e offline.
Tiny Aya si rivolge a tre tipi di pubblico: ricercatori che lavorano in lingue diverse dall’inglese, sviluppatori che costruiscono per comunità digitalmente svantaggiate e applicazioni integrate che richiedono traduzioni affidabili senza dipendenza dal cloud. Il modello include una capacità di traduzione offline, migliorando la privacy e riducendo la latenza.
Runway Gen-4.5 disponibile via API + Claude Code Skill
17 febbraio — Runway apre l’accesso a Gen-4.5 tramite la sua API, permettendo agli sviluppatori di integrare la generazione di immagini, video e audio direttamente nei loro progetti. L’annuncio è accompagnato da un Claude Code Skill dedicato, disponibile su GitHub, che permette di generare contenuti multimediali Runway senza lasciare l’ambiente di sviluppo.
🔗 Tweet @runwayml · 🔗 GitHub Skills
Manus Agents: agente personale con memoria a lungo termine
16 febbraio — Manus lancia Manus Agents, una capacità che permette a ogni utente di disporre di un agente personale direttamente nelle conversazioni chat. L’agente combina memoria a lungo termine (stile, tono e preferenze mantenute), capacità complete di creazione (video, slide, siti, immagini) e integrazioni dirette con Gmail, Calendar e Notion.
ElevenAgents for Support
17 febbraio — ElevenLabs lancia ElevenAgents for Support, agenti conversazionali IA per il supporto clienti. Operanti in voce e canali digitali in oltre 70 lingue, questi agenti si basano sulla piattaforma agentica di ElevenLabs e sui suoi oltre 4 milioni di dispiegamenti in produzione.
NotebookLM x Zillow: notebook immobiliare
18 febbraio — NotebookLM lancia in partnership con Zillow un Featured Notebook gratuito per gli acquirenti immobiliari, centralizzando i consigli degli esperti sulla preparazione finanziaria, la valutazione del mercato e le procedure di acquisto.
Cosa significa questo
Questa settimana illustra due tendenze principali. La prima è la democratizzazione delle prestazioni frontier: Sonnet 4.6 porta capacità Opus a una tariffa 5 volte inferiore, mentre Qwen3.5 rende un modello da 397B parametri accessibile in Apache 2.0. La seconda è l’espansione degli agenti IA in nuovi ambiti — lo studio di Anthropic mostra che le sessioni autonome più lunghe sono raddoppiate in tre mesi, e attori come Manus, ElevenLabs e Runway stanno costruendo agenti specializzati (chat personale, supporto clienti, creazione multimediale).
L’arrivo della generazione musicale in Gemini con Lyria 3 e il benchmark EVMbench per la sicurezza blockchain mostrano anche che l’IA generativa e l’IA di sicurezza continuano a strutturarsi come campi a sé stanti.
Fonti
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Ricerca web migliorata con filtraggio dinamico — Claude Blog
- Claude API improvements — @claudeai