Z.ai lancia GLM-5, il suo nuovo modello di punta open-source con 744 miliardi di parametri sotto licenza MIT, che si piazza al primo posto tra i modelli open-source per il coding e le attività agentiche. Anthropic pubblica un rapporto sui rischi di sabotaggio ASL-4 per Opus 4.6, OpenAI arricchisce la sua API con primitive agentiche e Kimi rivela un sistema di 100 sotto-agenti paralleli. Sul fronte dell’ecosistema, Runway raccoglie 315 milioni di dollari ed ElevenLabs lancia una modalità espressiva per i suoi agenti vocali.
Z.ai lancia GLM-5: 744B parametri, open-source sotto licenza MIT
11 febbraio — Z.ai (Zhipu AI) lancia GLM-5, il suo nuovo modello di frontiera progettato per l’ingegneria di sistemi complessi e le attività agentiche di lunga durata. Rispetto a GLM-4.5, il modello passa da 355B parametri (32B attivi) a 744B parametri (40B attivi), con dati di pre-addestramento che aumentano da 23T a 28,5T token.
GLM-5 integra DeepSeek Sparse Attention (DSA) per ridurre i costi di distribuzione preservando la capacità di contesto lungo, e introduce “slime”, un’infrastruttura di apprendimento per rinforzo asincrona che migliora il throughput post-training.
| Benchmark | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77,8% | 73,8% | 76,8% | 80,9% | 76,2% |
| HLE (text) | 30,5 | 24,8 | 31,5 | 28,4 | 37,2 |
| HLE w/ Tools | 50,4 | 42,8 | 51,8 | 43,4 | 45,8 |
| Terminal-Bench 2.0 | 56,2 | 41,0 | 50,8 | 59,3 | 54,2 |
| Vending Bench 2 | $4 432 | $2 377 | $1 198 | $4 967 | $5 478 |
GLM-5 si posiziona come il miglior modello open-source per ragionamento, coding e attività agentiche, colmando il divario con i modelli di frontiera proprietari. Su Vending Bench 2, un benchmark che simula la gestione di un distributore automatico per un anno, GLM-5 termina con un saldo di 4 967).
Oltre al codice, GLM-5 può generare direttamente file .docx, .pdf e .xlsx — proposte, rapporti finanziari, fogli di calcolo — consegnati chiavi in mano. Z.ai implementa una modalità Agente con competenze integrate per la creazione di documenti, supportando la collaborazione multi-turno.
I pesi del modello sono pubblicati su Hugging Face sotto licenza MIT. GLM-5 è compatibile con Claude Code e OpenClaw, e disponibile su OpenRouter. Il rilascio è progressivo, iniziando dagli abbonati Coding Plan Max.
🔗 Blog tecnico GLM-5 🔗 Annuncio su X
Anthropic pubblica il primo rapporto sul rischio di sabotaggio ASL-4
11 febbraio — Anthropic pubblica un rapporto sui rischi di sabotaggio per Claude Opus 4.6, in previsione della soglia di sicurezza ASL-4 (AI Safety Level 4) per la R&S autonoma nell’IA.
Al momento del rilascio di Claude Opus 4.5, Anthropic si era impegnata a redigere rapporti sui rischi di sabotaggio per ogni nuovo modello di frontiera. Invece di navigare tra soglie vaghe, l’azienda ha scelto di rispettare proattivamente lo standard di sicurezza ASL-4 più elevato.
| Elemento | Dettaglio |
|---|---|
| Modello valutato | Claude Opus 4.6 |
| Soglia di sicurezza | ASL-4 (AI Safety Level 4) |
| Dominio | R&S autonoma nell’IA |
| Formato | Rapporto PDF pubblico |
| Precedente | Impegno preso durante il lancio di Opus 4.5 |
Questo è un passo significativo nella trasparenza della sicurezza dell’IA: Anthropic è uno dei primi laboratori a pubblicare un tale rapporto di sabotaggio per un modello in produzione.
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇮🇹 Quando abbiamo rilasciato Claude Opus 4.5, sapevamo che i futuri modelli sarebbero stati vicini alla nostra soglia AI Safety Level 4 per la R&S autonoma nell’IA. Ci siamo quindi impegnati a scrivere rapporti sui rischi di sabotaggio per i futuri modelli di frontiera. Oggi manteniamo quell’impegno per Claude Opus 4.6. — @AnthropicAI su X
OpenAI: nuove primitive agentiche nell’API Responses
10 febbraio — OpenAI introduce tre nuove primitive nell’API Responses per il lavoro agentico di lunga durata.
Compattazione lato server
Consente sessioni di agenti di più ore senza raggiungere i limiti di contesto. La compattazione è gestita lato server. Triple Whale, tester in accesso anticipato, riferisce di aver realizzato 150 chiamate di strumenti e 5 milioni di token in una singola sessione senza perdita di precisione.
Container con networking
I container ospitati da OpenAI possono ora accedere a internet in modo controllato. Gli amministratori definiscono una whitelist di domini nella dashboard, le richieste devono definire esplicitamente una network_policy e i segreti di dominio possono essere iniettati senza esporre i valori grezzi al modello.
Competenze nell’API
Supporto nativo dello standard Agent Skills con una prima competenza pre-costruita (fogli di calcolo). Le competenze sono pacchetti riutilizzabili e versionati che possono essere montati negli ambienti shell ospitati, e i modelli decidono in fase di esecuzione se devono invocarli.
| Primitiva | Descrizione | Stato |
|---|---|---|
| Compattazione lato server | Sessioni multi-ora senza limiti di contesto | Disponibile |
| Container con networking | Accesso internet controllato per container ospitati | Disponibile |
| Competenze nell’API | Pacchetti riutilizzabili (prima competenza: fogli di calcolo) | Disponibile |
Kimi Agent Swarm: orchestrazione di 100 sotto-agenti
10 febbraio — Kimi (Moonshot AI) svela Agent Swarm, una capacità di coordinamento multi-agente che consente di parallelizzare compiti complessi con un massimo di 100 sotto-agenti specializzati.
Il sistema può eseguire più di 1.500 chiamate di strumenti e raggiunge una velocità 4,5 volte superiore alle esecuzioni sequenziali. I casi d’uso coprono la generazione simultanea di più file (Word, Excel, PDF), l’analisi parallela dei contenuti e la generazione creativa in più stili in parallelo. Agent Swarm risolve un limite strutturale degli LLM: il degrado del ragionamento durante compiti lunghi che riempiono il contesto.
OpenAI Harness Engineering: zero righe di codice manuale con Codex
11 febbraio — OpenAI pubblica un’esperienza sulla costruzione di un prodotto software interno con zero righe di codice scritte manualmente. Per 5 mesi, un team da 3 a 7 ingegneri ha utilizzato esclusivamente Codex per generare tutto il codice.
| Metrica | Valore |
|---|---|
| Righe di codice generate | ~1 milione |
| Pull request | ~1.500 |
| PR per ingegnere al giorno | 3,5 in media |
| Utenti interni | Diverse centinaia |
| Tempo stimato | 1/10 del tempo necessario a mano |
| Sessioni Codex | Fino a 6+ ore |
L’approccio “Harness Engineering” ridefinisce il ruolo dell’ingegnere: progettare ambienti, specificare l’intento e costruire cicli di feedback per gli agenti, piuttosto che scrivere codice. La documentazione strutturata nel repo funge da guida (AGENTS.md come sommario), l’architettura è rigida con linter e test strutturali generati da Codex, e attività ricorrenti scansionano le deviazioni e aprono automaticamente PR di refactoring.
Runway raccoglie 315 milioni di dollari in Serie E
10 febbraio — Runway annuncia una raccolta fondi di Serie E da 315 milioni di dollari, portando la sua valutazione a 5,3 miliardi di dollari. Il round è guidato da General Atlantic, con la partecipazione di NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein e altri.
| Dettaglio | Valore |
|---|---|
| Importo | 315 M$ |
| Serie | E |
| Valutazione | 5,3 Mld in Serie D) |
| Investitore principale | General Atlantic |
| Totale raccolto dal 2018 | 860 M$ |
I fondi serviranno a pre-addestrare la prossima generazione di “world models” — modelli capaci di simulare il mondo fisico — e a distribuirli in nuovi prodotti e settori. Questo annuncio arriva dopo il lancio di Gen-4.5, l’ultimo modello di generazione video di Runway.
🔗 Annuncio ufficiale 🔗 Post Runway su X
Cowork disponibile su Windows
10 febbraio — Claude Cowork, l’applicazione desktop per attività multi-step, è ora disponibile su Windows in anteprima di ricerca con parità completa di funzionalità rispetto a macOS.
| Funzionalità | Descrizione |
|---|---|
| Accesso file | Lettura e scrittura di file locali |
| Plugin | Supporto per i plugin Cowork |
| Connettori MCP | Integrazione con server MCP |
| Istruzioni per cartella | Stile Claude.md — istruzioni in linguaggio naturale per progetto |
Cowork su Windows è disponibile per tutti i piani Claude a pagamento tramite claude.com/cowork.
Funzionalità gratuite nel piano gratuito Claude
11 febbraio — Anthropic amplia le funzionalità accessibili nel piano gratuito di Claude. La creazione di file, i connettori, le competenze e la compattazione sono ora disponibili senza abbonamento. La compattazione consente a Claude di riassumere automaticamente il contesto precedente in modo che le lunghe conversazioni possano continuare senza ricominciare.
Claude Code Plan Mode in Slack
11 febbraio — L’integrazione Claude Code in Slack riceve il Plan Mode. Quando si assegna a Claude un compito di codice in Slack, ora può elaborare un piano prima di eseguire, consentendo di convalidare l’approccio prima dell’implementazione.
| Funzionalità | Descrizione |
|---|---|
| Plan Mode | Elaborazione di un piano prima dell’esecuzione |
| Rilevamento automatico | Routing intelligente tra codice e chat |
| Creazione di PR | Pulsante “Create PR” direttamente da Slack |
| Prerequisiti | Piano Pro, Max, Team o Enterprise + GitHub collegato |
ElevenLabs lancia la modalità Espressiva per i suoi agenti vocali
10 febbraio — ElevenLabs svela Expressive Mode per ElevenAgents, un’evoluzione che rende i suoi agenti vocali IA capaci di adattare tono, emozione ed enfasi in tempo reale.
La modalità si basa su Eleven v3 Conversational, un modello di sintesi vocale ottimizzato per il dialogo in tempo reale, accoppiato a un nuovo sistema di turni che riduce le interruzioni. Il prezzo rimane a 0,08 $ al minuto. Parallelamente, ElevenLabs ristruttura la sua piattaforma in tre famiglie di prodotti: ElevenAgents (agenti vocali), ElevenCreative (strumenti creativi) ed ElevenAPI (piattaforma per sviluppatori).
Kimi K2.5 integrato su Qoder
9 febbraio — Qoder (piattaforma IA per sviluppatori) distribuisce Kimi K2.5 come modello di punta del suo marketplace, con un punteggio SWE-bench Verified del 76,8% e una tariffa vantaggiosa (0,3x crediti nel livello Efficient). Il flusso di lavoro consigliato: utilizzare modelli pesanti per design e architettura, poi K2.5 per l’implementazione.
Cosa significa
L’open-source continua a progredire rapidamente verso i modelli di frontiera. GLM-5 di Z.ai riduce il divario con Claude Opus 4.5 e GPT-5.2 sui benchmark di coding e attività agentiche, pur essendo disponibile sotto licenza MIT. La pubblicazione del rapporto di sabotaggio ASL-4 da parte di Anthropic stabilisce un precedente in materia di trasparenza della sicurezza che altri laboratori saranno probabilmente costretti a seguire.
Sul lato sviluppatori, le primitive agentiche di OpenAI (compattazione lato server, container di rete, competenze API) e l’approccio “Harness Engineering” delineano un futuro in cui gli agenti autonomi gestiscono sessioni di diverse ore. Kimi Agent Swarm spinge questa logica ancora oltre con l’orchestrazione di centinaia di sotto-agenti in parallelo.
Fonti
- Z.ai — Blog tecnico GLM-5
- Z.ai — Annuncio GLM-5 su X
- Anthropic — Thread sul Rapporto di Rischio di Sabotaggio
- OpenAIDevs — Primitive agentiche
- OpenAI — Harness Engineering
- Kimi — Agent Swarm
- Runway — Finanziamento Serie E
- Claude — Cowork Windows
- Claude — Funzionalità del piano gratuito
- Boris Cherny — Claude Code Slack
- ElevenLabs — Modalità Espressiva
- Qoder — Kimi K2.5