MiniMax pubblica M2.5, un modello frontier open-source che raggiunge l’80,2% su SWE-Bench Verified. Kling lancia il suo modello 3.0 con video 1080p e dialoghi realistici. Sul fronte ricerca, Perplexity distribuisce Model Council per eseguire tre modelli contemporaneamente, e fa girare Deep Research su Claude Opus 4.6. Mistral annuncia il suo più grande hackathon mondiale con 200.000 dollari di premi.
MiniMax M2.5 — modello frontier open-source
12 febbraio — MiniMax annuncia M2.5, un modello frontier open-source progettato per la produttività reale. Il modello mostra prestazioni state-of-the-art in quattro aree critiche: coding, ricerca web, chiamate a strumenti agentic e lavoro d’ufficio.
| Benchmark | Punteggio | Categoria |
|---|---|---|
| SWE-Bench Verified | 80,2% | Risoluzione di bug reali |
| BrowseComp | 76,3% | Ricerca e navigazione web |
| BFCL | 76,8% | Chiamate a strumenti agentic |
| Office Work | Ottimizzato | Produttività documentale |
Il punteggio dell’80,2% su SWE-Bench Verified posiziona M2.5 tra i migliori modelli di coding in tutte le categorie. Su BrowseComp, il benchmark di navigazione web di OpenAI, raggiunge il 76,3% — segno di una solida capacità di ricerca autonoma.
MiniMax rivendica un’esecuzione più veloce del 37% su compiti complessi rispetto ai modelli concorrenti, con un costo di 1 dollaro all’ora a 100 token/secondo. L’obiettivo dichiarato: rendere economicamente sostenibile lo scaling di agenti long-horizon.
Il modello è disponibile tramite MiniMax Agent (agent.minimax.io) e l’API per sviluppatori (platform.minimax.io). Come modello open-source frontier, M2.5 si posiziona direttamente contro i principali modelli proprietari.
MiniMax Forge — framework RL per agenti di produzione
12 febbraio — In parallelo a M2.5, MiniMax pubblica Forge, un framework e algoritmo di apprendimento per rinforzo (RL) scalabile per addestrare agenti IA di produzione.
Forge affronta un problema ricorrente nell’addestramento degli agenti: l’instabilità dell’apprendimento su larga scala. Il framework offre un approccio ottimizzato per il reward modeling degli agenti, rivolgendosi a sviluppatori e ricercatori ML che distribuiscono agenti autonomi.
Il doppio annuncio M2.5 + Forge segnala l’ambizione di MiniMax di offrire uno stack completo per agenti IA: modello frontier + framework di addestramento.
Kling 3.0 — “Everyone a Director”
1 febbraio — Kling AI lancia il suo modello 3.0, un aggiornamento importante del suo motore di generazione video posizionato attorno al concetto “Everyone a Director”. Il modello mira a rendere la creazione cinematografica accessibile senza competenze tecniche.
I principali miglioramenti riguardano la qualità visiva e il realismo delle interazioni umane:
| Capacità | Dettaglio |
|---|---|
| Risoluzione | 1080p nativo |
| Dialogo | Espressioni facciali e gesti realistici |
| Coerenza | Stile visivo mantenuto su lunghe sequenze |
| Flessibilità | Dal prompt semplice allo storyboard cinematografico completo |
I feedback della community creativa sono positivi, in particolare sul realismo dei dialoghi e sulla capacità di produrre scene con interazioni umane convincenti — un punto debole storico dei modelli video IA.
Perplexity lancia Model Council — ricerca multi-modello
5 febbraio — Perplexity distribuisce Model Council, una funzionalità che esegue la stessa query su tre modelli frontier contemporaneamente e produce un’unica risposta sintetizzata.
Invece di passare manualmente tra i modelli, Model Council lancia la query su Claude Opus 4.6, GPT 5.2 e Gemini 3.0 in parallelo. Un modello sintetizzatore analizza i risultati, risolve i conflitti tra le risposte e mostra dove i modelli convergono o divergono.
| Caso d’uso | Dettaglio |
|---|---|
| Investimento | Prospettive di mercato equilibrate |
| Decisioni complesse | Strategia aziendale, acquisti importanti |
| Brainstorming | Idee creative diversificate |
| Verifica | Validare informazioni con maggiore sicurezza |
La funzionalità è disponibile immediatamente sul web per gli abbonati Perplexity Max. La versione mobile è in sviluppo.
Perplexity Deep Research passa a Opus 4.6
9 febbraio — Perplexity annuncia che Deep Research ora funziona su Claude Opus 4.6, migliorando i risultati state-of-the-art su benchmark interni ed esterni. L’aggiornamento rafforza le capacità di ragionamento nella ricerca approfondita.
La funzionalità è disponibile immediatamente per gli utenti Max, con un rilascio progressivo per gli utenti Pro.
🔗 Annuncio Deep Research Opus 4.6
Perplexity rilascia DRACO Benchmark come open-source
4 febbraio — Perplexity rende pubblico DRACO, un benchmark open-source progettato per valutare gli strumenti di ricerca profonda (Deep Research). Le rubriche e la metodologia completa sono disponibili pubblicamente.
DRACO convalida che Perplexity Deep Research raggiunge prestazioni state-of-the-art sui benchmark esterni, superando altri strumenti di ricerca approfondita in precisione e affidabilità.
Mistral annuncia il suo più grande hackathon — 200.000 $ di premi
10 febbraio — Mistral AI lancia il suo più grande hackathon globale mai organizzato, previsto dal 28 febbraio al 1 marzo 2026.
| Dettaglio | Informazione |
|---|---|
| Formato | 48 ore |
| Luoghi | Parigi, Londra, New York, San Francisco, Tokyo, Singapore, Sydney + online |
| Premi | 200.000 $ in ricompense |
| Partner | NVIDIA, AWS, Weights & Biases, Hugging Face |
| Premi speciali | ElevenLabs, Hugging Face |
L’evento si svolge contemporaneamente in 8 città e online. L’elenco dei partner (NVIDIA, AWS, WandB, Hugging Face) segnala la fiducia del principale ecosistema IA nella piattaforma Mistral.
Cohere firma con Magnus Carlsen come ambasciatore
13 febbraio — Cohere annuncia una partnership con Magnus Carlsen, cinque volte Campione del Mondo di scacchi e numero 1 al mondo, come ambasciatore globale del marchio.
Carlsen parteciperà a campagne di visibilità, iniziative di thought leadership ed eventi di alto profilo di Cohere. La partnership mira a illustrare i paralleli tra la strategia negli scacchi e l’approccio di Cohere all’IA aziendale: focus sui fondamentali, anticipazione e vantaggi sostenibili.
🔗 Annuncio Cohere + Magnus Carlsen
In breve
12 febbraio — Runway lancia Story Panels, un nuovo flusso di lavoro che permette di creare film completi o pubblicità da una singola immagine, con coerenza di personaggi, luoghi e stile.
12-13 febbraio — Mooncake, un allocatore di memoria PyTorch co-sviluppato da Moonshot AI (Kimi) e dall’Università Tsinghua, si unisce all’ecosistema PyTorch. Lo strumento ottimizza la riduzione dei picchi di memoria e la frammentazione, rilevante per il deployment di LLM long-context.
9 febbraio — Ideogram evidenzia il suo editing di immagini tramite prompt in linguaggio naturale, permettendo di modificare immagini generate tramite semplici istruzioni testuali.
30 gennaio — Perplexity integra Kimi K2.5, il modello di ragionamento open-source di Moonshot AI, per i suoi abbonati Pro e Max. L’inferenza gira sull’infrastruttura propria di Perplexity negli Stati Uniti.
4 febbraio — MiniMax e Hyperbond Studio annunciano una partnership per sviluppare compagni IA conversazionali con “Call Me Sensei”, utilizzando gli LLM e le API agenti di MiniMax.
Cosa significa
La prima metà di febbraio 2026 conferma diverse tendenze di fondo. MiniMax M2.5 dimostra che un attore meno pubblicizzato può pubblicare un modello open-source che rivaleggia con i leader sui benchmark di coding — 80,2% su SWE-Bench Verified è un punteggio notevole per un modello aperto. Con Forge come complemento, MiniMax offre uno stack completo per agenti.
Perplexity accelera la sua differenziazione con Model Council, un approccio pragmatico che riconosce che nessun modello unico domina tutti i casi d’uso. L’integrazione di Opus 4.6 in Deep Research e la pubblicazione di DRACO come open-source rafforzano la trasparenza e la credibilità della piattaforma.
Kling 3.0 segna un progresso nella generazione video con dialoghi realistici — un passo verso strumenti di produzione cinematografica accessibili. Lato community, l’hackathon di Mistral da 200.000 $ in 8 città mostra la maturità dell’ecosistema open-source europeo.