Cerca

GLM-5 open-source, Rapporto sul rischio di sabotaggio ASL-4, OpenAI lancia primitive agentiche

GLM-5 open-source, Rapporto sul rischio di sabotaggio ASL-4, OpenAI lancia primitive agentiche

Z.ai lancia GLM-5, il suo nuovo modello di punta open-source con 744 miliardi di parametri sotto licenza MIT, che si piazza al primo posto tra i modelli open-source per il coding e le attività agentiche. Anthropic pubblica un rapporto sui rischi di sabotaggio ASL-4 per Opus 4.6, OpenAI arricchisce la sua API con primitive agentiche e Kimi rivela un sistema di 100 sotto-agenti paralleli. Sul fronte dell’ecosistema, Runway raccoglie 315 milioni di dollari ed ElevenLabs lancia una modalità espressiva per i suoi agenti vocali.


Z.ai lancia GLM-5: 744B parametri, open-source sotto licenza MIT

11 febbraio — Z.ai (Zhipu AI) lancia GLM-5, il suo nuovo modello di frontiera progettato per l’ingegneria di sistemi complessi e le attività agentiche di lunga durata. Rispetto a GLM-4.5, il modello passa da 355B parametri (32B attivi) a 744B parametri (40B attivi), con dati di pre-addestramento che aumentano da 23T a 28,5T token.

GLM-5 integra DeepSeek Sparse Attention (DSA) per ridurre i costi di distribuzione preservando la capacità di contesto lungo, e introduce “slime”, un’infrastruttura di apprendimento per rinforzo asincrona che migliora il throughput post-training.

BenchmarkGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77,8%73,8%76,8%80,9%76,2%
HLE (text)30,524,831,528,437,2
HLE w/ Tools50,442,851,843,445,8
Terminal-Bench 2.056,241,050,859,354,2
Vending Bench 2$4 432$2 377$1 198$4 967$5 478

GLM-5 si posiziona come il miglior modello open-source per ragionamento, coding e attività agentiche, colmando il divario con i modelli di frontiera proprietari. Su Vending Bench 2, un benchmark che simula la gestione di un distributore automatico per un anno, GLM-5 termina con un saldo di 4432,avvicinandosiaClaudeOpus4.5(4 432, avvicinandosi a Claude Opus 4.5 (4 967).

Oltre al codice, GLM-5 può generare direttamente file .docx, .pdf e .xlsx — proposte, rapporti finanziari, fogli di calcolo — consegnati chiavi in mano. Z.ai implementa una modalità Agente con competenze integrate per la creazione di documenti, supportando la collaborazione multi-turno.

I pesi del modello sono pubblicati su Hugging Face sotto licenza MIT. GLM-5 è compatibile con Claude Code e OpenClaw, e disponibile su OpenRouter. Il rilascio è progressivo, iniziando dagli abbonati Coding Plan Max.

🔗 Blog tecnico GLM-5 🔗 Annuncio su X


Anthropic pubblica il primo rapporto sul rischio di sabotaggio ASL-4

11 febbraio — Anthropic pubblica un rapporto sui rischi di sabotaggio per Claude Opus 4.6, in previsione della soglia di sicurezza ASL-4 (AI Safety Level 4) per la R&S autonoma nell’IA.

Al momento del rilascio di Claude Opus 4.5, Anthropic si era impegnata a redigere rapporti sui rischi di sabotaggio per ogni nuovo modello di frontiera. Invece di navigare tra soglie vaghe, l’azienda ha scelto di rispettare proattivamente lo standard di sicurezza ASL-4 più elevato.

ElementoDettaglio
Modello valutatoClaude Opus 4.6
Soglia di sicurezzaASL-4 (AI Safety Level 4)
DominioR&S autonoma nell’IA
FormatoRapporto PDF pubblico
PrecedenteImpegno preso durante il lancio di Opus 4.5

Questo è un passo significativo nella trasparenza della sicurezza dell’IA: Anthropic è uno dei primi laboratori a pubblicare un tale rapporto di sabotaggio per un modello in produzione.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇮🇹 Quando abbiamo rilasciato Claude Opus 4.5, sapevamo che i futuri modelli sarebbero stati vicini alla nostra soglia AI Safety Level 4 per la R&S autonoma nell’IA. Ci siamo quindi impegnati a scrivere rapporti sui rischi di sabotaggio per i futuri modelli di frontiera. Oggi manteniamo quell’impegno per Claude Opus 4.6.@AnthropicAI su X

🔗 Thread Anthropic


OpenAI: nuove primitive agentiche nell’API Responses

10 febbraio — OpenAI introduce tre nuove primitive nell’API Responses per il lavoro agentico di lunga durata.

Compattazione lato server

Consente sessioni di agenti di più ore senza raggiungere i limiti di contesto. La compattazione è gestita lato server. Triple Whale, tester in accesso anticipato, riferisce di aver realizzato 150 chiamate di strumenti e 5 milioni di token in una singola sessione senza perdita di precisione.

Container con networking

I container ospitati da OpenAI possono ora accedere a internet in modo controllato. Gli amministratori definiscono una whitelist di domini nella dashboard, le richieste devono definire esplicitamente una network_policy e i segreti di dominio possono essere iniettati senza esporre i valori grezzi al modello.

Competenze nell’API

Supporto nativo dello standard Agent Skills con una prima competenza pre-costruita (fogli di calcolo). Le competenze sono pacchetti riutilizzabili e versionati che possono essere montati negli ambienti shell ospitati, e i modelli decidono in fase di esecuzione se devono invocarli.

PrimitivaDescrizioneStato
Compattazione lato serverSessioni multi-ora senza limiti di contestoDisponibile
Container con networkingAccesso internet controllato per container ospitatiDisponibile
Competenze nell’APIPacchetti riutilizzabili (prima competenza: fogli di calcolo)Disponibile

🔗 Thread OpenAIDevs


Kimi Agent Swarm: orchestrazione di 100 sotto-agenti

10 febbraio — Kimi (Moonshot AI) svela Agent Swarm, una capacità di coordinamento multi-agente che consente di parallelizzare compiti complessi con un massimo di 100 sotto-agenti specializzati.

Il sistema può eseguire più di 1.500 chiamate di strumenti e raggiunge una velocità 4,5 volte superiore alle esecuzioni sequenziali. I casi d’uso coprono la generazione simultanea di più file (Word, Excel, PDF), l’analisi parallela dei contenuti e la generazione creativa in più stili in parallelo. Agent Swarm risolve un limite strutturale degli LLM: il degrado del ragionamento durante compiti lunghi che riempiono il contesto.

🔗 Annuncio Kimi


OpenAI Harness Engineering: zero righe di codice manuale con Codex

11 febbraio — OpenAI pubblica un’esperienza sulla costruzione di un prodotto software interno con zero righe di codice scritte manualmente. Per 5 mesi, un team da 3 a 7 ingegneri ha utilizzato esclusivamente Codex per generare tutto il codice.

MetricaValore
Righe di codice generate~1 milione
Pull request~1.500
PR per ingegnere al giorno3,5 in media
Utenti interniDiverse centinaia
Tempo stimato1/10 del tempo necessario a mano
Sessioni CodexFino a 6+ ore

L’approccio “Harness Engineering” ridefinisce il ruolo dell’ingegnere: progettare ambienti, specificare l’intento e costruire cicli di feedback per gli agenti, piuttosto che scrivere codice. La documentazione strutturata nel repo funge da guida (AGENTS.md come sommario), l’architettura è rigida con linter e test strutturali generati da Codex, e attività ricorrenti scansionano le deviazioni e aprono automaticamente PR di refactoring.

🔗 Blog Harness Engineering


Runway raccoglie 315 milioni di dollari in Serie E

10 febbraio — Runway annuncia una raccolta fondi di Serie E da 315 milioni di dollari, portando la sua valutazione a 5,3 miliardi di dollari. Il round è guidato da General Atlantic, con la partecipazione di NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein e altri.

DettaglioValore
Importo315 M$
SerieE
Valutazione5,3 Mld(vs3,3Mld (vs 3,3 Mld in Serie D)
Investitore principaleGeneral Atlantic
Totale raccolto dal 2018860 M$

I fondi serviranno a pre-addestrare la prossima generazione di “world models” — modelli capaci di simulare il mondo fisico — e a distribuirli in nuovi prodotti e settori. Questo annuncio arriva dopo il lancio di Gen-4.5, l’ultimo modello di generazione video di Runway.

🔗 Annuncio ufficiale 🔗 Post Runway su X


Cowork disponibile su Windows

10 febbraio — Claude Cowork, l’applicazione desktop per attività multi-step, è ora disponibile su Windows in anteprima di ricerca con parità completa di funzionalità rispetto a macOS.

FunzionalitàDescrizione
Accesso fileLettura e scrittura di file locali
PluginSupporto per i plugin Cowork
Connettori MCPIntegrazione con server MCP
Istruzioni per cartellaStile Claude.md — istruzioni in linguaggio naturale per progetto

Cowork su Windows è disponibile per tutti i piani Claude a pagamento tramite claude.com/cowork.

🔗 Annuncio Cowork Windows


Funzionalità gratuite nel piano gratuito Claude

11 febbraio — Anthropic amplia le funzionalità accessibili nel piano gratuito di Claude. La creazione di file, i connettori, le competenze e la compattazione sono ora disponibili senza abbonamento. La compattazione consente a Claude di riassumere automaticamente il contesto precedente in modo che le lunghe conversazioni possano continuare senza ricominciare.

🔗 Annuncio piano gratuito


Claude Code Plan Mode in Slack

11 febbraio — L’integrazione Claude Code in Slack riceve il Plan Mode. Quando si assegna a Claude un compito di codice in Slack, ora può elaborare un piano prima di eseguire, consentendo di convalidare l’approccio prima dell’implementazione.

FunzionalitàDescrizione
Plan ModeElaborazione di un piano prima dell’esecuzione
Rilevamento automaticoRouting intelligente tra codice e chat
Creazione di PRPulsante “Create PR” direttamente da Slack
PrerequisitiPiano Pro, Max, Team o Enterprise + GitHub collegato

🔗 Thread Boris Cherny


ElevenLabs lancia la modalità Espressiva per i suoi agenti vocali

10 febbraio — ElevenLabs svela Expressive Mode per ElevenAgents, un’evoluzione che rende i suoi agenti vocali IA capaci di adattare tono, emozione ed enfasi in tempo reale.

La modalità si basa su Eleven v3 Conversational, un modello di sintesi vocale ottimizzato per il dialogo in tempo reale, accoppiato a un nuovo sistema di turni che riduce le interruzioni. Il prezzo rimane a 0,08 $ al minuto. Parallelamente, ElevenLabs ristruttura la sua piattaforma in tre famiglie di prodotti: ElevenAgents (agenti vocali), ElevenCreative (strumenti creativi) ed ElevenAPI (piattaforma per sviluppatori).

🔗 Blog Expressive Mode


Kimi K2.5 integrato su Qoder

9 febbraio — Qoder (piattaforma IA per sviluppatori) distribuisce Kimi K2.5 come modello di punta del suo marketplace, con un punteggio SWE-bench Verified del 76,8% e una tariffa vantaggiosa (0,3x crediti nel livello Efficient). Il flusso di lavoro consigliato: utilizzare modelli pesanti per design e architettura, poi K2.5 per l’implementazione.

🔗 Annuncio Qoder


Cosa significa

L’open-source continua a progredire rapidamente verso i modelli di frontiera. GLM-5 di Z.ai riduce il divario con Claude Opus 4.5 e GPT-5.2 sui benchmark di coding e attività agentiche, pur essendo disponibile sotto licenza MIT. La pubblicazione del rapporto di sabotaggio ASL-4 da parte di Anthropic stabilisce un precedente in materia di trasparenza della sicurezza che altri laboratori saranno probabilmente costretti a seguire.

Sul lato sviluppatori, le primitive agentiche di OpenAI (compattazione lato server, container di rete, competenze API) e l’approccio “Harness Engineering” delineano un futuro in cui gli agenti autonomi gestiscono sessioni di diverse ore. Kimi Agent Swarm spinge questa logica ancora oltre con l’orchestrazione di centinaia di sotto-agenti in parallelo.


Fonti