Grok STT y TTS APIs a precios de derribo, Claude for Word, Midjourney V8.1

El 18 de abril, xAI lanza dos APIs de audio — reconocimiento de voz (Speech to Text) y síntesis de voz (Text to Speech) — con tarifas que rebajan a todos los competidores establecidos. Anthropic hace que Claude esté disponible directamente en Microsoft Word para sus suscriptores Pro, Max, Team y Enterprise. Midjourney despliega V8.1 con renderizado 2K nativo, tres veces más rápido y tres veces más barato que V8. En paralelo: Luma y Wonder Project abren el estudio Innovative Dreams respaldado por AWS, MiniMax se asocia con NousResearch para MaxHermes, Kimi publica una arquitectura de inferencia cross-datacenter, y Google enriquece Chrome con Gemini Skills.

Grok STT y TTS — las APIs de audio más baratas del mercado

17 de abril — xAI lanza simultáneamente dos APIs de audio standalone: una API de reconocimiento de voz (Speech to Text, STT) y una API de síntesis de voz (Text to Speech, TTS). El posicionamiento de precios es frontal: ambas APIs muestran los precios más bajos de su respectivo segmento.

API STT (reconocimiento de voz)

La API STT de Grok ofrece dos modos: batch REST y streaming WebSocket. Las tarifas son respectivamente $0,10/hora (batch) y $0,20/hora (streaming), frente a $0,22 y $0,39 en ElevenLabs, $0,21 y $0,45 en AssemblyAI, $0,31 y $0,55 en Deepgram.

Competidor	Batch (REST)	Streaming (WebSocket)
Grok	$0,10/h	$0,20/h
ElevenLabs	$0,22/h	$0,39/h
AssemblyAI	$0,21/h	$0,45/h
Deepgram	$0,31/h	$0,55/h

En cuanto a la calidad, la tasa global de error de palabras (Word Error Rate) de Grok STT es de 6,9%, frente a 9,0% para ElevenLabs, 11,0% para Deepgram y 12,9% para AssemblyAI. Grok STT cubre más de 25 idiomas con marcas de tiempo a nivel de palabra, diarización de varios hablantes (speaker diarization), soporte multicanal y normalización inversa del texto (conversión de cifras y fechas a partir del habla).

API TTS (síntesis de voz)

La API TTS de Grok tiene un precio de $4,20 por millón de caracteres, mientras que OpenAI cobra $30, InWorld $40, Cartesia $46,70 y ElevenLabs $50. La API admite REST y streaming WebSocket. Introduce etiquetas expresivas: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — para controlar el tono y el ritmo de la síntesis.

Competidor	Precio / millón de caracteres
Grok	$4,20
OpenAI	$30,00
InWorld	$40,00
Cartesia	$46,70
ElevenLabs	$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇪🇸 xAI anuncia el lanzamiento de las APIs de reconocimiento de voz y de síntesis de voz Grok. Grok STT muestra la tasa de error de palabras y el precio más bajos del mundo. Grok TTS ofrece la voz más expresiva y el precio más bajo del mundo. — @xai en X

🔗 Anuncio de xAI 🔗 Tweet @xai

Claude for Word — la extensión de Microsoft en beta

17 de abril — Anthropic lanza Claude for Word en versión beta para los suscriptores Pro, Max, Team y Enterprise. La extensión se integra directamente en la interfaz de Microsoft Word — sin ventana separada — y funciona a nivel de documento.

Funcionalidad	Descripción
Control de cambios nativo	Todos los cambios de Claude aparecen como revisiones de Word aceptables/rechazables
Gestión de comentarios	Claude lee los comentarios, edita el texto anclado y responde en el hilo
Conservación del formato	Hereda los estilos de títulos, numeraciones y términos definidos
Cross-context	Comparte el contexto con los complementos de Excel y PowerPoint en una misma conversación
Seguridad empresarial	Conexión mediante cuenta Claude o proveedor cloud existente

Los formatos compatibles son .docx y .docm. La extensión se instala a través de Microsoft Marketplace bajo el identificador WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai

Midjourney V8.1 — renderizado 2K nativo, 3× más rápido

14 de abril — Midjourney ha publicado la versión V8.1 de su generador de imágenes. Esta actualización aporta el renderizado 2K HD nativo con una velocidad de generación tres veces superior a V8, por un coste tres veces inferior.

V8.1 constituye un refinamiento significativo del motor V8: la resolución pasa directamente a 2K sin upscaling posterior, lo que mejora la fidelidad de los detalles finos y reduce los artefactos habituales de las etapas de ampliación. La combinación velocidad/precio/resolución posiciona V8.1 como la versión más accesible de la gama V8.

Luma × Wonder Project — el estudio Innovative Dreams, respaldado por AWS

16 de abril — Luma AI y Wonder Project (estudio de producción faith & values, socio de Prime Video) anuncian conjuntamente el lanzamiento de Innovative Dreams — una nueva empresa de producción cinematográfica, laboratorio de I+D y compañía de VFX, respaldada y financiada por Amazon Web Services (AWS).

Innovative Dreams se presenta como el primer estudio que despliega a gran escala el Realtime Hybrid Filmmaking — un enfoque que mezcla captura de interpretación, producción virtual e IA generativa (en particular los Luma Agents) en todas las etapas de producción: concepto, previsualización, rodaje y posproducción.

Aspecto	Detalle
CEO	Jon Erwin (fundador de Wonder Project)
CTO / Luma	Amit Jain (CEO de Luma AI)
Infraestructura	AWS cloud + IA para I+D y herramientas de producción virtual
Tecnología	Luma Agents + Realtime Hybrid Filmmaking
Sitio	MBS Media Campus, Manhattan Beach, California
Primer proyecto	”The Old Stories: Moses” (3 episodios) con Ben Kingsley y O-T Fagbenle, para Prime Video

El enfoque “Realtime Hybrid Filmmaking” elimina los retrasos tradicionales entre rodaje, renderizado y montaje. Los actores pueden reaccionar a los entornos digitales en tiempo real, lo que acorta la distancia entre la idea creativa y el píxel final sin sacrificar la interpretación humana. Innovative Dreams también ofrece sus herramientas a otros estudios de Hollywood.

🔗 Anuncio de Luma 🔗 Tweet @LumaLabsAI

MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent sin configuración

16 de abril — MiniMax anuncia una asociación profunda con NousResearch para integrar el modelo M2.7 en el harness Hermes Agent. El anuncio introduce MaxHermes — una versión cloud gestionada de Hermes Agent accesible directamente desde @MiniMaxAgent, sin configuración en terminal ni instalación local.

La coevolución M2.7 × Hermes Agent apunta a agentes de clase superior: el bucle de auto-mejora (self-improving loop) de Hermes saca el máximo partido del modelo M2.7 para las tareas agénticas. Los usuarios que ejecutan Hermes localmente también pueden conectar su agente a MaxHermes para beneficiarse de la infraestructura cloud gestionada.

🔗 Tweet @MiniMax_AI

Gemini Skills en Chrome — tus prompts con un clic

14 de abril — Google Chrome integra una nueva función llamada “Skills” para Gemini en el navegador. Ahora puedes guardar tus prompts más útiles y relanzarlos con un solo clic, sin volver a escribirlos. También está disponible una biblioteca de prompts predefinidos para empezar rápidamente.

La función se anunció el 14 de abril y se confirmó disponible el 15 de abril de 2026, para luego aparecer en el resumen semanal @GoogleAI del 17 de abril.

🔗 Tweet @googlechrome (14 abr.) 🔗 Tweet @googlechrome (15 abr.)

Gemini API — prepago (Prepay Billing) en Google AI Studio

15 de abril — Google AI Studio introduce “Prepay Billing” para la API Gemini. Los desarrolladores ahora pueden comprar créditos por adelantado y consumirlos sobre la marcha, eliminando las sorpresas de facturación de fin de mes.

La recarga automática está disponible cuando el saldo es bajo. La función es compatible con los Spend Caps (lanzados anteriormente) y los Usage Tiers. Está disponible en Estados Unidos para las nuevas cuentas de facturación de Google Cloud, con un despliegue mundial en las próximas semanas. Las cuentas establecidas con niveles de uso elevados podrán pasar al postpaid.

🔗 Tweet @GoogleAIStudio

Kimi Prefill-as-a-Service — la inferencia cross-datacenter

18 de abril — Moonshot AI (Kimi) publica un avance técnico en infraestructura de inferencia: Prefill-as-a-Service (PraaS). La arquitectura lleva la desagregación Prefill/Decode (prefill/decode disaggregation) más allá de un solo clúster, hacia una arquitectura cross-datacenter con hardware heterogéneo.

Los resultados anunciados: 1,54× de throughput adicional y -64% en el P90 TTFT (tiempo hasta el primer token). La tecnología clave es el modelo híbrido Kimi Linear, que reduce el coste de transferencia de la caché KV (key-value cache) entre datacenters. No se trata de un lanzamiento de consumo masivo, sino de una publicación de investigación en infraestructura de inferencia distribuida, con un impacto directo en la reducción del coste por token para Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 Artículo de arXiv

Claude Code v2.1.114 y Runway Seedance 2.0 API

18 de abril — Claude Code v2.1.114 corrige un fallo que se producía cuando un miembro de un equipo de agentes solicitaba acceso a una herramienta mediante el cuadro de diálogo de permisos.

16 de abril — Runway hace accesible Seedance 2.0 a través de la API de Runway para los desarrolladores. Tras el lanzamiento web (9 de abril), el renderizado 1080p (16 de abril) y la aplicación iOS (17 de abril), el acceso API completa el despliegue multicanal del modelo. La documentación está disponible en dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API

Qué significa esto

El lanzamiento simultáneo de las APIs STT y TTS de Grok es el movimiento tarifario más agresivo de la semana. Al rebajar los precios entre 2 y 10 veces respecto a ElevenLabs, AssemblyAI y OpenAI TTS, xAI señala claramente que el audio IA se está convirtiendo en una commodidad, lo que acelerará la adopción por parte de desarrolladores independientes y startups, pero comprimirá los márgenes de los actores establecidos. La combinación de una tasa de error de reconocimiento entre las más bajas del mercado, precios de derribo y etiquetas expresivas hace que estas APIs sean inmediatamente utilizables en producción.

Claude for Word y Gemini Skills en Chrome traducen dos estrategias distintas: Anthropic integra su modelo en las herramientas de productividad ofimática ya existentes, donde sus usuarios ya pasan sus jornadas; Google, por su parte, enriquece su navegador para hacer de Gemini una presencia indispensable en el día a día. Ambos enfoques buscan reducir la fricción de acceso al modelo.

Luma × Wonder Project × AWS ilustra el surgimiento de un nuevo modelo de estudio hollywoodiense: IA generativa integrada en cada etapa de producción, infraestructura cloud AWS, y la ambición de “localizar” en Los Ángeles producciones que antes se deslocalizaban. El anuncio es simbólico tanto como técnico: valida el Realtime Hybrid Filmmaking como una canalización industrializable, no solo como un concepto.

Fuentes

Este documento ha sido traducido de la versión fr al idioma es utilizando el modelo gpt-5.4-mini. Para más información sobre el proceso de traducción, consulte https://github.com/jls42/ai-powered-markdown-translator