Cerca

Claude Opus 4.6 e GPT-5.3-Codex: Doppio lancio, aggiornamento Gemini 3

Claude Opus 4.6 e GPT-5.3-Codex: Doppio lancio, aggiornamento Gemini 3

Doppio lancio al vertice: Anthropic rilascia Claude Opus 4.6 con contesto da 1M token e agent teams, mentre OpenAI risponde con GPT-5.3-Codex e una piattaforma enterprise. Google spinge Gemini 3 su tutti i fronti, e GitHub risponde finalmente a una richiesta vecchia di 8 anni.


Claude Opus 4.6: SOTA in agentic coding e contesto 1M

5 febbraio — Anthropic lancia Claude Opus 4.6, un aggiornamento importante del suo modello più intelligente. Il modello progredisce in pianificazione, sessioni lunghe, revisione del codice, e offre per la prima volta un contesto di 1 milione di token in beta per un modello Opus.

BenchmarkPunteggioDettaglio
Terminal-Bench 2.0SOTAPunteggio più alto in agentic coding
Humanity’s Last ExamSOTARagionamento multidisciplinare
GDPval-AA+144 Elo vs GPT-5.2Lavoro professionale (finanza, legale)
BrowseCompSOTARecupero di informazioni complesse
MRCR v2 (8-needle 1M)76%vs 18.5% per Sonnet 4.5

Novità API e prodotto

FunzionalitàDescrizione
Agent teamsPiù agenti Claude Code in parallelo (research preview)
Adaptive thinkingIl modello sceglie quando usare il pensiero profondo
Effort controls4 livelli: basso, medio, alto (predefinito), massimo
Context compactionRiassunto automatico del contesto per sessioni lunghe
128k output tokensOutput più lunghi in una singola richiesta
Claude in PowerPointResearch preview (Max, Team, Enterprise)

Prezzi: Invariati a 5/5/25 per milione di token (input/output). Prezzi premium oltre i 200k token (10/10/37.50).

Disponibilità: claude.ai, API (claude-opus-4-6), e tutte le principali piattaforme cloud.

Blog di ingegneria: rumore infrastrutturale e compilatore C

Anthropic pubblica due articoli tecnici lo stesso giorno. Il primo quantifica il rumore infrastrutturale nei benchmark di agentic coding: su Terminal-Bench 2.0, la sola configurazione delle risorse può creare divari di 6 punti percentuali tra i setup. Il secondo documenta la costruzione di un compilatore C in Rust da parte di 16 agenti Claude in parallelo: 100.000 righe di codice, in grado di compilare il kernel Linux 6.9 su x86, ARM e RISC-V, in ~2.000 sessioni Claude Code per ~$20.000.

Opus 4.6 in GitHub Copilot

Lo stesso giorno, Claude Opus 4.6 diventa disponibile in GA su GitHub Copilot via Agent HQ, dopo l’anteprima pubblica annunciata il giorno precedente.

🔗 Annuncio Opus 4.6 | Rumore infrastrutturale | Costruire un compilatore C


GPT-5.3-Codex: coding frontier + conoscenze pro

5 febbraio — OpenAI lancia GPT-5.3-Codex, che fonde le prestazioni di codifica di GPT-5.2-Codex con le capacità di ragionamento di GPT-5.2, il tutto 25% più veloce.

BenchmarkPunteggio
SWE-Bench Pro (Pubblico)56.8%
Terminal-Bench 2.077.3%
OSWorld-Verified64.7%
GDPval (vittorie o pareggi)70.9%
Cybersecurity CTF77.6%
SWE-Lancer IC Diamond81.4%

GPT-5.3-Codex è il primo modello ad aver contribuito alla sua stessa creazione: il team ha utilizzato versioni preliminari per eseguire il debug dell’addestramento, gestire il deployment e analizzare i risultati dei test.

Oltre il codice

Il modello produce presentazioni, fogli di calcolo, analisi dati e gestisce compiti di produttività in un ambiente desktop (64.7% su OSWorld-Verified).

Cybersecurity: alta capacità

GPT-5.3-Codex è il primo modello classificato alta capacità per la cybersecurity nel quadro di preparazione di OpenAI, e il primo specificamente addestrato per identificare vulnerabilità software.

🔗 Blog GPT-5.3-Codex | System Card


OpenAI: Frontier, MCP Apps, sicurezza e biotech

OpenAI Frontier: piattaforma agenti enterprise

5 febbraio — OpenAI lancia Frontier, una piattaforma per sviluppare, distribuire e gestire agenti AI in azienda. Gli agenti ricevono un contesto aziendale condiviso, permessi, e imparano dall’esperienza.

AspettoDettaglio
Primi clientiHP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
Partner AIAbridge, Clay, Ambience, Decagon, Harvey, Sierra
ApproccioForward Deployed Engineers (FDE) integrati nei team
StandardStandard aperti, compatibile con sistemi esistenti

ChatGPT: MCP Apps in beta

5 febbraio — Le MCP Apps arrivano in beta in ChatGPT Business, Enterprise ed Edu. Nuovi connettori partner: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte e altri. Le organizzazioni possono costruire app MCP personalizzate via modalità sviluppatore.

Trusted Access for Cyber

5 febbraio — OpenAI lancia Trusted Access for Cyber, un programma pilota di accesso basato sulla fiducia per capacità cyber avanzate. Gli utenti possono verificare la loro identità su chatgpt.com/cyber. 10 milioni di dollari in crediti API sono assegnati alla cyberdifesa tramite il Cybersecurity Grant Program.

GPT-5 riduce il costo di sintesi proteica

5 febbraio — In collaborazione con Ginkgo Bioworks, OpenAI collega GPT-5 a un laboratorio robotizzato per ottimizzare la sintesi proteica cell-free (CFPS). Risultato: 40% di riduzione del costo di produzione e 57% di miglioramento sul costo dei reagenti, dopo 36.000 composizioni testate su 580 piastre automatizzate in sei round di sperimentazione.

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 proteine


Google: Gemini 3, Super Bowl e NotebookLM

Gemini 3: aggiornamenti e Super Bowl

5-6 febbraio — Google spinge Gemini 3 su tutti i fronti. Gemini 3 Flash, lanciato di recente, offre ragionamento di livello Pro a velocità Flash: 90.4% su GPQA Diamond e 33.7% su Humanity’s Last Exam (senza strumenti). Gemini 3 diventa il modello predefinito per le AI Overviews in Google Search.

Google prepara anche uno spot Gemini di 60 secondi per il Super Bowl LX (8 febbraio) — lo spot “New Home” mostra un bambino che prepara un trasloco con l’aiuto di Gemini, illustrando le capacità di ricerca in Google Foto e la generazione di immagini.

NotebookLM: Infographics e Slide Decks

NotebookLM, ora costruito su Gemini 3, distribuisce Infographics e Slide Decks per gli utenti Free e Pro. Gli Slide Decks sono già il secondo output studio più popolare. Gli utenti Ultra possono rimuovere la filigrana.

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics


GitHub: commenti fissati nelle Issues

5 febbraio — GitHub lancia i commenti fissati nelle Issues. Ora è possibile fissare un commento in cima a una issue dal menu contestuale. Una funzionalità richiesta dal 2017 per mettere in evidenza decisioni, aggiornamenti e prossimi passi chiave nei thread lunghi.

🔗 Changelog


Cosa significa

Il 5 febbraio 2026 rimarrà come un giorno storico: Anthropic e OpenAI lanciano simultaneamente i loro modelli di coding più avanzati. Claude Opus 4.6 domina i benchmark di lavoro professionale e recupero informazioni, mentre GPT-5.3-Codex eccelle nel coding terminale e nell’uso del computer. Entrambi i modelli rivendicano il SOTA (State Of The Art) su Terminal-Bench 2.0 — l’articolo di Anthropic sul rumore infrastrutturale ha perfettamente senso.

Oltre ai modelli, si intensifica la battaglia delle piattaforme: OpenAI Frontier attacca l’enterprise con agenti distribuiti presso Oracle e Uber, mentre Anthropic scommette sull’ecosistema sviluppatori (GitHub, Xcode, Claude Code). Google avanza su tutti i fronti con Gemini 3 in Search, Chrome e NotebookLM, e prepara il Super Bowl per ancorare Gemini nel grande pubblico.


Fonti