MiniMax M2.5 raggiunge l'80% su SWE-Bench open-source, Kling 3.0 trasforma i video IA, Perplexity lancia Model Council

MiniMax pubblica M2.5, un modello frontier open-source che raggiunge l’80,2% su SWE-Bench Verified. Kling lancia il suo modello 3.0 con video 1080p e dialoghi realistici. Sul fronte ricerca, Perplexity distribuisce Model Council per eseguire tre modelli contemporaneamente, e fa girare Deep Research su Claude Opus 4.6. Mistral annuncia il suo più grande hackathon mondiale con 200.000 dollari di premi.

MiniMax M2.5 — modello frontier open-source

12 febbraio — MiniMax annuncia M2.5, un modello frontier open-source progettato per la produttività reale. Il modello mostra prestazioni state-of-the-art in quattro aree critiche: coding, ricerca web, chiamate a strumenti agentic e lavoro d’ufficio.

Benchmark	Punteggio	Categoria
SWE-Bench Verified	80,2%	Risoluzione di bug reali
BrowseComp	76,3%	Ricerca e navigazione web
BFCL	76,8%	Chiamate a strumenti agentic
Office Work	Ottimizzato	Produttività documentale

Il punteggio dell’80,2% su SWE-Bench Verified posiziona M2.5 tra i migliori modelli di coding in tutte le categorie. Su BrowseComp, il benchmark di navigazione web di OpenAI, raggiunge il 76,3% — segno di una solida capacità di ricerca autonoma.

MiniMax rivendica un’esecuzione più veloce del 37% su compiti complessi rispetto ai modelli concorrenti, con un costo di 1 dollaro all’ora a 100 token/secondo. L’obiettivo dichiarato: rendere economicamente sostenibile lo scaling di agenti long-horizon.

Il modello è disponibile tramite MiniMax Agent (agent.minimax.io) e l’API per sviluppatori (platform.minimax.io). Come modello open-source frontier, M2.5 si posiziona direttamente contro i principali modelli proprietari.

🔗 Annuncio MiniMax M2.5

MiniMax Forge — framework RL per agenti di produzione

12 febbraio — In parallelo a M2.5, MiniMax pubblica Forge, un framework e algoritmo di apprendimento per rinforzo (RL) scalabile per addestrare agenti IA di produzione.

Forge affronta un problema ricorrente nell’addestramento degli agenti: l’instabilità dell’apprendimento su larga scala. Il framework offre un approccio ottimizzato per il reward modeling degli agenti, rivolgendosi a sviluppatori e ricercatori ML che distribuiscono agenti autonomi.

Il doppio annuncio M2.5 + Forge segnala l’ambizione di MiniMax di offrire uno stack completo per agenti IA: modello frontier + framework di addestramento.

🔗 Forge su MiniMax News

Kling 3.0 — “Everyone a Director”

1 febbraio — Kling AI lancia il suo modello 3.0, un aggiornamento importante del suo motore di generazione video posizionato attorno al concetto “Everyone a Director”. Il modello mira a rendere la creazione cinematografica accessibile senza competenze tecniche.

I principali miglioramenti riguardano la qualità visiva e il realismo delle interazioni umane:

Capacità	Dettaglio
Risoluzione	1080p nativo
Dialogo	Espressioni facciali e gesti realistici
Coerenza	Stile visivo mantenuto su lunghe sequenze
Flessibilità	Dal prompt semplice allo storyboard cinematografico completo

I feedback della community creativa sono positivi, in particolare sul realismo dei dialoghi e sulla capacità di produrre scene con interazioni umane convincenti — un punto debole storico dei modelli video IA.

🔗 Annuncio Kling 3.0

Perplexity lancia Model Council — ricerca multi-modello

5 febbraio — Perplexity distribuisce Model Council, una funzionalità che esegue la stessa query su tre modelli frontier contemporaneamente e produce un’unica risposta sintetizzata.

Invece di passare manualmente tra i modelli, Model Council lancia la query su Claude Opus 4.6, GPT 5.2 e Gemini 3.0 in parallelo. Un modello sintetizzatore analizza i risultati, risolve i conflitti tra le risposte e mostra dove i modelli convergono o divergono.

Caso d’uso	Dettaglio
Investimento	Prospettive di mercato equilibrate
Decisioni complesse	Strategia aziendale, acquisti importanti
Brainstorming	Idee creative diversificate
Verifica	Validare informazioni con maggiore sicurezza

La funzionalità è disponibile immediatamente sul web per gli abbonati Perplexity Max. La versione mobile è in sviluppo.

🔗 Introducing Model Council

Perplexity Deep Research passa a Opus 4.6

9 febbraio — Perplexity annuncia che Deep Research ora funziona su Claude Opus 4.6, migliorando i risultati state-of-the-art su benchmark interni ed esterni. L’aggiornamento rafforza le capacità di ragionamento nella ricerca approfondita.

La funzionalità è disponibile immediatamente per gli utenti Max, con un rilascio progressivo per gli utenti Pro.

🔗 Annuncio Deep Research Opus 4.6

Perplexity rilascia DRACO Benchmark come open-source

4 febbraio — Perplexity rende pubblico DRACO, un benchmark open-source progettato per valutare gli strumenti di ricerca profonda (Deep Research). Le rubriche e la metodologia completa sono disponibili pubblicamente.

DRACO convalida che Perplexity Deep Research raggiunge prestazioni state-of-the-art sui benchmark esterni, superando altri strumenti di ricerca approfondita in precisione e affidabilità.

🔗 Annuncio DRACO

Mistral annuncia il suo più grande hackathon — 200.000 $ di premi

10 febbraio — Mistral AI lancia il suo più grande hackathon globale mai organizzato, previsto dal 28 febbraio al 1 marzo 2026.

Dettaglio	Informazione
Formato	48 ore
Luoghi	Parigi, Londra, New York, San Francisco, Tokyo, Singapore, Sydney + online
Premi	200.000 $ in ricompense
Partner	NVIDIA, AWS, Weights & Biases, Hugging Face
Premi speciali	ElevenLabs, Hugging Face

L’evento si svolge contemporaneamente in 8 città e online. L’elenco dei partner (NVIDIA, AWS, WandB, Hugging Face) segnala la fiducia del principale ecosistema IA nella piattaforma Mistral.

🔗 Annuncio Mistral Hackathon

Cohere firma con Magnus Carlsen come ambasciatore

13 febbraio — Cohere annuncia una partnership con Magnus Carlsen, cinque volte Campione del Mondo di scacchi e numero 1 al mondo, come ambasciatore globale del marchio.

Carlsen parteciperà a campagne di visibilità, iniziative di thought leadership ed eventi di alto profilo di Cohere. La partnership mira a illustrare i paralleli tra la strategia negli scacchi e l’approccio di Cohere all’IA aziendale: focus sui fondamentali, anticipazione e vantaggi sostenibili.

🔗 Annuncio Cohere + Magnus Carlsen

In breve

12 febbraio — Runway lancia Story Panels, un nuovo flusso di lavoro che permette di creare film completi o pubblicità da una singola immagine, con coerenza di personaggi, luoghi e stile.

🔗 Runway Story Panels

12-13 febbraio — Mooncake, un allocatore di memoria PyTorch co-sviluppato da Moonshot AI (Kimi) e dall’Università Tsinghua, si unisce all’ecosistema PyTorch. Lo strumento ottimizza la riduzione dei picchi di memoria e la frammentazione, rilevante per il deployment di LLM long-context.

🔗 Annuncio Mooncake

9 febbraio — Ideogram evidenzia il suo editing di immagini tramite prompt in linguaggio naturale, permettendo di modificare immagini generate tramite semplici istruzioni testuali.

30 gennaio — Perplexity integra Kimi K2.5, il modello di ragionamento open-source di Moonshot AI, per i suoi abbonati Pro e Max. L’inferenza gira sull’infrastruttura propria di Perplexity negli Stati Uniti.

4 febbraio — MiniMax e Hyperbond Studio annunciano una partnership per sviluppare compagni IA conversazionali con “Call Me Sensei”, utilizzando gli LLM e le API agenti di MiniMax.

Cosa significa

La prima metà di febbraio 2026 conferma diverse tendenze di fondo. MiniMax M2.5 dimostra che un attore meno pubblicizzato può pubblicare un modello open-source che rivaleggia con i leader sui benchmark di coding — 80,2% su SWE-Bench Verified è un punteggio notevole per un modello aperto. Con Forge come complemento, MiniMax offre uno stack completo per agenti.

Perplexity accelera la sua differenziazione con Model Council, un approccio pragmatico che riconosce che nessun modello unico domina tutti i casi d’uso. L’integrazione di Opus 4.6 in Deep Research e la pubblicazione di DRACO come open-source rafforzano la trasparenza e la credibilità della piattaforma.

Kling 3.0 segna un progresso nella generazione video con dialoghi realistici — un passo verso strumenti di produzione cinematografica accessibili. Lato community, l’hackathon di Mistral da 200.000 $ in 8 città mostra la maturità dell’ecosistema open-source europeo.