Grok STT e TTS APIs a prezzi stracciati, Claude per Word, Midjourney V8.1

Il 18 aprile, xAI lancia due API audio — riconoscimento vocale (Speech to Text) e sintesi vocale (Text to Speech) — con tariffe che sottocostano tutti i concorrenti affermati. Anthropic rende Claude accessibile direttamente in Microsoft Word per i suoi abbonati Pro, Max, Team ed Enterprise. Midjourney distribuisce V8.1 con rendering 2K nativo, tre volte più veloce e tre volte meno costoso di V8. In parallelo: Luma e Wonder Project aprono lo studio Innovative Dreams sostenuto da AWS, MiniMax si associa a NousResearch per MaxHermes, Kimi pubblica un’architettura di inferenza cross-datacenter, e Google arricchisce Chrome con i Gemini Skills.

Grok STT e TTS — le API audio meno costose del mercato

17 aprile — xAI lancia simultaneamente due API audio standalone: un’API di riconoscimento vocale (Speech to Text, STT) e un’API di sintesi vocale (Text to Speech, TTS). Il posizionamento tariffario è frontale: entrambe le API mostrano i prezzi più bassi dei rispettivi segmenti.

API STT (riconoscimento vocale)

L’API STT di Grok propone due modalità: batch REST e streaming WebSocket. Le tariffe sono rispettivamente di $0,10/ora (batch) e $0,20/ora (streaming), contro $0,22 e $0,39 chez ElevenLabs, $0,21 e $0,45 chez AssemblyAI, $0,31 e $0,55 chez Deepgram.

Concorrente	Batch (REST)	Streaming (WebSocket)
Grok	$0,10/h	$0,20/h
ElevenLabs	$0,22/h	$0,39/h
AssemblyAI	$0,21/h	$0,45/h
Deepgram	$0,31/h	$0,55/h

Sulla qualità, il tasso globale di errore di parole (Word Error Rate) di Grok STT è del 6,9%, contro il 9,0% per ElevenLabs, l’11,0% per Deepgram e il 12,9% per AssemblyAI. Grok STT copre 25+ lingue con timestamp a livello di parola, diarizzazione multi-parlante (speaker diarization), supporto multicanale e normalizzazione inversa del testo (conversione di numeri e date dal parlato).

API TTS (sintesi vocale)

L’API TTS di Grok ha un prezzo di $4,20 per milione di caratteri, mentre OpenAI fattura $30, InWorld $40, Cartesia $46,70 ed ElevenLabs $50. L’API supporta REST e streaming WebSocket. Introduce etichette espressive: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — per controllare il tono e il ritmo della sintesi.

Concorrente	Prezzo / milione di caratteri
Grok	$4,20
OpenAI	$30,00
InWorld	$40,00
Cartesia	$46,70
ElevenLabs	$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇮🇹 xAI annuncia il lancio delle API di riconoscimento vocale e di sintesi vocale Grok. Grok STT mostra il tasso di errore di parole e il prezzo più bassi al mondo. Grok TTS propone la voce più espressiva e il prezzo più basso al mondo. — @xai su X

🔗 Annuncio xAI 🔗 Tweet @xai

Claude for Word — l’estensione Microsoft in beta

17 aprile — Anthropic lancia Claude for Word in versione beta per gli abbonati Pro, Max, Team ed Enterprise. L’estensione si integra direttamente nell’interfaccia di Microsoft Word — senza finestra separata — e funziona a livello di documento.

Funzionalità	Descrizione
Tracked changes nativi	Tutte le modifiche di Claude appaiono come revisioni Word accettabili/rifiutabili
Gestione dei commenti	Claude legge i commenti, modifica il testo ancorato e risponde nel thread
Preservazione del formato	Eredita gli stili dei titoli, la numerazione e i termini definiti
Cross-context	Condivide il contesto con gli add-in Excel e PowerPoint in una stessa conversazione
Sicurezza enterprise	Connessione tramite account Claude o fornitore cloud esistente

I formati supportati sono .docx e .docm. L’estensione si installa tramite Microsoft Marketplace con l’identificativo WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai

Midjourney V8.1 — rendering 2K nativo, 3× più veloce

14 aprile — Midjourney ha messo online la versione V8.1 del suo generatore di immagini. Questo aggiornamento introduce il rendering 2K HD nativo con una velocità di generazione tre volte superiore a V8, a un costo tre volte inferiore.

V8.1 costituisce un raffinamento significativo del motore V8: la risoluzione passa direttamente in 2K senza upscaling successivo, il che migliora la fedeltà dei dettagli fini e riduce gli artefatti abituali delle fasi di ingrandimento. La combinazione velocità/prezzo/risoluzione posiziona V8.1 come la versione più accessibile della gamma V8.

Luma × Wonder Project — lo studio Innovative Dreams, sostenuto da AWS

16 aprile — Luma AI e Wonder Project (studio di produzione faith & values, partner Prime Video) annunciano congiuntamente il lancio di Innovative Dreams — una nuova società di produzione cinematografica, laboratorio di R&D e impresa di VFX, sostenuta e finanziata da Amazon Web Services (AWS).

Innovative Dreams è presentato come il primo studio a distribuire su larga scala il Realtime Hybrid Filmmaking — un approccio che combina cattura della performance, produzione virtuale e IA generativa (in particolare gli Luma Agents) in tutte le fasi di produzione: concept, pre-visualizzazione, riprese e post-produzione.

Aspetto	Dettaglio
CEO	Jon Erwin (fondatore di Wonder Project)
CTO / Luma	Amit Jain (CEO di Luma AI)
Infrastruttura	AWS cloud + IA per R&D e strumenti di produzione virtuale
Tecnologia	Luma Agents + Realtime Hybrid Filmmaking
Sede	MBS Media Campus, Manhattan Beach, California
Primo progetto	”The Old Stories: Moses” (3 episodi) con Ben Kingsley e O-T Fagbenle, per Prime Video

L’approccio “Realtime Hybrid Filmmaking” elimina i ritardi tradizionali tra riprese, rendering e montaggio. Gli attori possono reagire agli ambienti digitali in tempo reale, il che accorcia la distanza tra idea creativa e pixel finale preservando al tempo stesso la performance umana. Innovative Dreams propone inoltre i suoi strumenti ad altri studi di Hollywood.

🔗 Annuncio Luma 🔗 Tweet @LumaLabsAI

MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent senza configurazione

16 aprile — MiniMax annuncia una partnership approfondita con NousResearch per integrare il modello M2.7 nel harness Hermes Agent. L’annuncio introduce MaxHermes — una versione cloud gestita di Hermes Agent accessibile direttamente da @MiniMaxAgent, senza configurazione nel terminale né installazione locale.

La co-evoluzione M2.7 × Hermes Agent punta ad agent di classe superiore: il ciclo di auto-miglioramento (self-improving loop) di Hermes trae il massimo dal modello M2.7 per le attività agentiche. Gli utenti che eseguono Hermes in locale possono anche connettere il proprio agent a MaxHermes per beneficiare dell’infrastruttura cloud gestita.

🔗 Tweet @MiniMax_AI

Gemini Skills in Chrome — i vostri prompt in un clic

14 aprile — Google Chrome integra una nuova funzionalità chiamata “Skills” per Gemini nel browser. Ora potete salvare i vostri prompt più utili e rilanciarli con un solo clic, senza riscriverli. È inoltre disponibile una libreria di prompt predefiniti per partire rapidamente.

La funzionalità è stata annunciata il 14 aprile e confermata disponibile il 15 aprile 2026, poi ripresa nel riepilogo settimanale @GoogleAI del 17 aprile.

🔗 Tweet @googlechrome (14 apr.) 🔗 Tweet @googlechrome (15 apr.)

Gemini API — prepagamento (Prepay Billing) in Google AI Studio

15 aprile — Google AI Studio introduce il “Prepay Billing” per l’API Gemini. Gli sviluppatori possono ora acquistare crediti in anticipo e consumarli progressivamente, eliminando le sorprese di fatturazione a fine mese.

La ricarica automatica è disponibile quando il saldo è basso. La funzionalità è compatibile con gli Spend Caps (lanciati in precedenza) e gli Usage Tiers. È disponibile negli Stati Uniti per i nuovi account di fatturazione Google Cloud, con una distribuzione globale nelle prossime settimane. Gli account consolidati con livelli di utilizzo elevati potranno passare al postpaid.

🔗 Tweet @GoogleAIStudio

Kimi Prefill-as-a-Service — l’inferenza cross-datacenter

18 aprile — Moonshot AI (Kimi) pubblica un avanzamento tecnico nell’infrastruttura di inferenza: il Prefill-as-a-Service (PraaS). L’architettura spinge la disaggregazione Prefill/Decode (prefill/decode disaggregation) oltre un singolo cluster, verso un’architettura cross-datacenter con hardware eterogeneo.

I risultati annunciati: 1,54× di throughput (throughput) aggiuntivo e -64% sul P90 TTFT (tempo al primo token). La tecnologia chiave è il modello ibrido Kimi Linear, che riduce il costo di trasferimento della cache KV (key-value cache) tra datacenter. Non si tratta di un lancio per il grande pubblico ma di una pubblicazione di ricerca sull’infrastruttura di inferenza distribuita, con un impatto diretto sulla riduzione del costo per token per Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 Paper arXiv

Claude Code v2.1.114 e Runway Seedance 2.0 API

18 aprile — Claude Code v2.1.114 corregge un crash che si verificava quando un membro di una squadra di agenti richiedeva l’accesso a uno strumento tramite la finestra di dialogo delle autorizzazioni.

16 aprile — Runway rende Seedance 2.0 accessibile tramite l’API Runway per gli sviluppatori. Dopo il lancio web (9 aprile), il rendering 1080p (16 aprile) e l’applicazione iOS (17 aprile), l’accesso API completa la distribuzione multicanale del modello. La documentazione è disponibile su dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API

Cosa significa

Il lancio simultaneo delle API STT e TTS di Grok è la mossa tariffaria più aggressiva della settimana. Tagliando i prezzi da 2 a 10 volte rispetto a ElevenLabs, AssemblyAI e OpenAI TTS, xAI segnala chiaramente che l’audio IA sta diventando una commodity — il che accelera l’adozione per gli sviluppatori indipendenti e le startup, ma comprime i margini degli attori affermati. La combinazione di un tasso di errore di riconoscimento tra i più bassi del mercato, prezzi stracciati ed etichette espressive rende queste API immediatamente utilizzabili in produzione.

Claude for Word e i Gemini Skills in Chrome traducono due strategie diverse: Anthropic integra il suo modello negli strumenti di produttività d’ufficio esistenti, dove i suoi utenti trascorrono già le giornate; Google, invece, arricchisce il proprio browser per rendere Gemini indispensabile nella vita quotidiana. Entrambi gli approcci cercano di ridurre l’attrito di accesso al modello.

Luma × Wonder Project × AWS illustra l’emergere di un nuovo modello di studio hollywoodiano: IA generativa integrata in ogni fase di produzione, infrastruttura cloud AWS e ambizione di “riportare” a Los Angeles produzioni che andavano in delocalizzazione. L’annuncio è simbolico tanto quanto tecnico — convalida il Realtime Hybrid Filmmaking come pipeline industrializzabile, non solo come concetto.

Fonti

Questo documento è stato tradotto dalla versione fr alla lingua it utilizzando il modello gpt-5.4-mini. Per ulteriori informazioni sul processo di traduzione, consulta https://gitlab.com/jls42/ai-powered-markdown-translator