Buscar

Grok STT y TTS APIs a precios imbatibles, Claude for Word, Midjourney V8.1

Grok STT y TTS APIs a precios imbatibles, Claude for Word, Midjourney V8.1

El 18 de abril, xAI lanza dos APIs de audio — reconocimiento de voz (Speech to Text) y síntesis de voz (Text to Speech) — con tarifas que rebajan a todos los competidores consolidados. Anthropic hace que Claude esté accesible directamente en Microsoft Word para sus suscriptores Pro, Max, Team y Enterprise. Midjourney despliega V8.1 con renderizado 2K nativo, tres veces más rápido y tres veces más barato que V8. En paralelo: Luma y Wonder Project abren el estudio Innovative Dreams respaldado por AWS, MiniMax se asocia con NousResearch para MaxHermes, Kimi publica una arquitectura de inferencia cross-datacenter, y Google enriquece Chrome con Gemini Skills.


Grok STT y TTS — las APIs de audio más baratas del mercado

17 de abril — xAI lanza simultáneamente dos APIs de audio standalone: una API de reconocimiento de voz (Speech to Text, STT) y una API de síntesis de voz (Text to Speech, TTS). El posicionamiento tarifario es frontal: ambas APIs muestran los precios más bajos de su segmento respectivo.

API STT (reconocimiento de voz)

La API STT de Grok ofrece dos modos: batch REST y streaming WebSocket. Las tarifas son respectivamente de $0,10/hora (batch) y $0,20/hora (streaming), frente a $0,22 y $0,39 en ElevenLabs, $0,21 y $0,45 en AssemblyAI, $0,31 y $0,55 en Deepgram.

ConcurrenteBatch (REST)Streaming (WebSocket)
Grok$0,10/h$0,20/h
ElevenLabs$0,22/h$0,39/h
AssemblyAI$0,21/h$0,45/h
Deepgram$0,31/h$0,55/h

En cuanto a la calidad, la tasa global de error de palabras (Word Error Rate) de Grok STT es de 6,9%, frente al 9,0% de ElevenLabs, 11,0% de Deepgram y 12,9% de AssemblyAI. Grok STT cubre más de 25 idiomas con marcas de tiempo a nivel de palabra, diarización de múltiples hablantes (speaker diarization), soporte multicanal y normalización inversa del texto (conversión de cifras y fechas a partir del habla).

API TTS (síntesis de voz)

La API TTS de Grok está tarifada en $4,20 por millón de caracteres, mientras que OpenAI cobra $30, InWorld $40, Cartesia $46,70 y ElevenLabs $50. La API admite REST y streaming WebSocket. Introduce etiquetas expresivas: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — para controlar el tono y el ritmo de la síntesis.

ConcurrentePrecio / millón de caracteres
Grok$4,20
OpenAI$30,00
InWorld$40,00
Cartesia$46,70
ElevenLabs$50,00

xAI anuncia el lanzamiento de las APIs de reconocimiento de voz y de síntesis de voz de Grok. Grok STT tiene la tasa de error de palabras y el precio más bajos del mundo. Grok TTS tiene la voz más expresiva y el precio más bajo del mundo.

🇪🇸 xAI anuncia el lanzamiento de las APIs de reconocimiento de voz y de síntesis de voz de Grok. Grok STT tiene la tasa de error de palabras y el precio más bajos del mundo. Grok TTS tiene la voz más expresiva y el precio más bajo del mundo.@xai en X

🔗 Anuncio de xAI 🔗 Tweet @xai


Claude for Word — la extensión de Microsoft en beta

17 de abril — Anthropic lanza Claude for Word en versión beta para los suscriptores Pro, Max, Team y Enterprise. La extensión se integra directamente en la interfaz de Microsoft Word — sin ventana separada — y funciona a nivel de documento.

FuncionalidadDescripción
Seguimiento nativo de cambiosTodos los cambios de Claude aparecen como revisiones de Word que se pueden aceptar o rechazar
Gestión de comentariosClaude lee los comentarios, edita el texto anclado y responde en el hilo
Preservación del formatoHereda los estilos de títulos, numeraciones y términos definidos
Cross-contextComparte el contexto con los add-ins de Excel y PowerPoint en una misma conversación
Seguridad empresarialConexión mediante cuenta Claude o proveedor cloud existente

Los formatos compatibles son .docx y .docm. La extensión se instala a través de Microsoft Marketplace bajo el identificador WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai


Midjourney V8.1 — renderizado 2K nativo, 3× más rápido

14 de abril — Midjourney ha puesto en línea la versión V8.1 de su generador de imágenes. Esta actualización aporta el renderizado 2K HD nativo con una velocidad de generación tres veces superior a V8, por un coste tres veces inferior.

V8.1 constituye un refinamiento significativo del motor V8: la resolución pasa directamente a 2K sin upscaling posterior, lo que mejora la fidelidad de los detalles finos y reduce los artefactos habituales de las etapas de ampliación. La combinación velocidad/precio/resolución posiciona a V8.1 como la versión más accesible de la gama V8.


Luma × Wonder Project — el estudio Innovative Dreams, respaldado por AWS

16 de abril — Luma AI y Wonder Project (estudio de producción faith & values, socio de Prime Video) anuncian conjuntamente el lanzamiento de Innovative Dreams — una nueva compañía de producción cinematográfica, laboratorio de I+D y empresa de VFX, respaldada y financiada por Amazon Web Services (AWS).

Innovative Dreams se presenta como el primer estudio en desplegar a gran escala el Realtime Hybrid Filmmaking — un enfoque que combina captura de interpretación, producción virtual e IA generativa (en particular los Luma Agents) en todas las etapas de producción: concepto, previsualización, rodaje y posproducción.

AspectoDetalle
CEOJon Erwin (fundador de Wonder Project)
CTO / LumaAmit Jain (CEO de Luma AI)
InfraestructuraAWS cloud + IA para I+D y herramientas de producción virtual
TecnologíaLuma Agents + Realtime Hybrid Filmmaking
UbicaciónMBS Media Campus, Manhattan Beach, California
Primer proyecto”The Old Stories: Moses” (3 episodios) con Ben Kingsley y O-T Fagbenle, para Prime Video

El enfoque “Realtime Hybrid Filmmaking” elimina los retrasos tradicionales entre rodaje, renderizado y montaje. Los actores pueden reaccionar a los entornos digitales en tiempo real, lo que acorta la distancia entre la idea creativa y el píxel final, preservando al mismo tiempo la interpretación humana. Innovative Dreams también ofrece sus herramientas a otros estudios de Hollywood.

🔗 Anuncio de Luma 🔗 Tweet @LumaLabsAI


MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent sin configuración

16 de abril — MiniMax anuncia una asociación profunda con NousResearch para integrar el modelo M2.7 en el harness Hermes Agent. El anuncio introduce MaxHermes — una versión cloud gestionada de Hermes Agent accesible directamente desde @MiniMaxAgent, sin configuración en terminal ni instalación local.

La coevolución M2.7 × Hermes Agent apunta a agentes de clase superior: el bucle de auto-mejora (self-improving loop) de Hermes saca el máximo partido del modelo M2.7 para las tareas agenticas. Los usuarios que ejecutan Hermes localmente también pueden conectar su agente a MaxHermes para beneficiarse de la infraestructura cloud gestionada.

🔗 Tweet @MiniMax_AI


Gemini Skills en Chrome — tus prompts en un clic

14 de abril — Google Chrome integra una nueva funcionalidad llamada “Skills” para Gemini en el navegador. Ahora puedes guardar tus prompts más útiles y relanzarlos con un solo clic, sin volver a escribirlos. También hay disponible una biblioteca de prompts predefinidos para empezar rápidamente.

La funcionalidad fue anunciada el 14 de abril y confirmada como disponible el 15 de abril de 2026, y luego retomada en el resumen semanal @GoogleAI del 17 de abril.

🔗 Tweet @googlechrome (14 abr.) 🔗 Tweet @googlechrome (15 abr.)


Gemini API — prepago (Prepay Billing) en Google AI Studio

15 de abril — Google AI Studio introduce el “Prepay Billing” para la API Gemini. Los desarrolladores pueden ahora comprar créditos por adelantado y consumirlos sobre la marcha, eliminando las sorpresas de facturación a final de mes.

La recarga automática está disponible cuando el saldo es bajo. La funcionalidad es compatible con los Spend Caps (lanzados anteriormente) y los Usage Tiers. Está disponible en Estados Unidos para las nuevas cuentas de facturación de Google Cloud, con un despliegue mundial en las próximas semanas. Las cuentas establecidas con niveles de uso elevados podrán pasar al postpaid.

🔗 Tweet @GoogleAIStudio


Kimi Prefill-as-a-Service — la inferencia cross-datacenter

18 de abril — Moonshot AI (Kimi) publica un avance técnico en infraestructura de inferencia: el Prefill-as-a-Service (PraaS). La arquitectura lleva la desagregación Prefill/Decode (prefill/decode disaggregation) más allá de un único clúster, hacia una arquitectura cross-datacenter con hardware heterogéneo.

Los resultados anunciados: 1,54× más throughput (throughput) y -64% en el P90 TTFT (tiempo hasta el primer token). La tecnología clave es el modelo híbrido Kimi Linear, que reduce el coste de transferencia del cache KV (key-value cache) entre datacenters. No se trata de un lanzamiento para el público general, sino de una publicación de investigación en infraestructura de inferencia distribuida, con un impacto directo en la reducción del coste por token para Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 Artículo de arXiv


Claude Code v2.1.114 y Runway Seedance 2.0 API

18 de abril — Claude Code v2.1.114 corrige un fallo que se producía cuando un miembro de un equipo de agentes solicitaba acceso a una herramienta a través del cuadro de diálogo de permisos.

16 de abril — Runway hace accesible Seedance 2.0 a través de la API de Runway para desarrolladores. Tras el lanzamiento web (9 de abril), el renderizado 1080p (16 de abril) y la aplicación iOS (17 de abril), el acceso API completa el despliegue multicanal del modelo. La documentación está disponible en dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API


Qué significa esto

El lanzamiento simultáneo de las APIs STT y TTS de Grok es el movimiento tarifario más agresivo de la semana. Al rebajar los precios entre 2 y 10 veces respecto a ElevenLabs, AssemblyAI y OpenAI TTS, xAI deja claro que el audio IA se está convirtiendo en una commoditización — lo que acelerará la adopción entre desarrolladores independientes y startups, pero comprimirá los márgenes de los actores consolidados. La combinación de una tasa de error de reconocimiento entre las más bajas del mercado, precios imbatibles y etiquetas expresivas hace que estas APIs sean inmediatamente utilizables en producción.

Claude for Word y Gemini Skills en Chrome reflejan dos estrategias diferentes: Anthropic integra su modelo en las herramientas de productividad de oficina existentes, donde sus usuarios ya pasan sus jornadas; Google, por su parte, enriquece su navegador para hacer de Gemini una presencia indispensable en el día a día. Ambos enfoques buscan reducir la fricción de acceso al modelo.

Luma × Wonder Project × AWS ilustra la aparición de un nuevo modelo de estudio hollywoodiense: IA generativa integrada en cada etapa de producción, infraestructura cloud AWS y la ambición de “localizar” en Los Ángeles producciones que antes se deslocalizaban. El anuncio es simbólico tanto como técnico — valida el Realtime Hybrid Filmmaking como un pipeline industrializable, no solo como un concepto.


Fuentes

Este documento ha sido traducido de la versión fr al idioma es utilizando el modelo gpt-5.4-mini. Para obtener más información sobre el proceso de traducción, consulte https://gitlab.com/jls42/ai-powered-markdown-translator