Grok STT e APIs TTS a preços de banana, Claude for Word, Midjourney V8.1

Em 18 de abril, a xAI lança duas APIs de áudio — reconhecimento de fala (Speech to Text) e síntese de fala (Text to Speech) — com preços que superam em baixa todos os concorrentes estabelecidos. A Anthropic torna o Claude acessível diretamente no Microsoft Word para os subscritores Pro, Max, Team e Enterprise. A Midjourney lança a V8.1 com renderização 2K nativa, três vezes mais rápida e três vezes mais barata do que a V8. Em paralelo: Luma e Wonder Project abrem o estúdio Innovative Dreams apoiado pela AWS, a MiniMax associa-se à NousResearch para o MaxHermes, a Kimi publica uma arquitetura de inferência cross-datacenter e o Google enriquece o Chrome com os Gemini Skills.

Grok STT e TTS — as APIs de áudio mais baratas do mercado

17 de abril — A xAI lança simultaneamente duas APIs de áudio standalone: uma API de reconhecimento de fala (Speech to Text, STT) e uma API de síntese de fala (Text to Speech, TTS). O posicionamento de preços é direto: ambas as APIs apresentam os preços mais baixos nos respetivos segmentos.

API STT (reconhecimento de fala)

A API STT da Grok oferece dois modos: batch REST e streaming WebSocket. Os preços são, respetivamente, $0,10/hora (batch) e $0,20/hora (streaming), contra $0,22 e $0,39 na ElevenLabs, $0,21 e $0,45 na AssemblyAI, $0,31 e $0,55 na Deepgram.

Concorrente	Batch (REST)	Streaming (WebSocket)
Grok	$0,10/h	$0,20/h
ElevenLabs	$0,22/h	$0,39/h
AssemblyAI	$0,21/h	$0,45/h
Deepgram	$0,31/h	$0,55/h

Em termos de qualidade, a taxa global de erro de palavras (Word Error Rate) da Grok STT é de 6,9%, contra 9,0% para a ElevenLabs, 11,0% para a Deepgram e 12,9% para a AssemblyAI. A Grok STT cobre mais de 25 idiomas com timestamps ao nível da palavra, diarização multi-falante (speaker diarization), suporte multicanal e normalização inversa do texto (conversão de números e datas a partir da fala).

API TTS (síntese de fala)

A API TTS da Grok é tarifada a $4,20 por milhão de caracteres, enquanto a OpenAI cobra $30, a InWorld $40, a Cartesia $46,70 e a ElevenLabs $50. A API suporta REST e streaming WebSocket. Ela introduz marcas expressivas: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — para controlar o tom e o ritmo da síntese.

Concorrente	Preço / milhão de caracteres
Grok	$4,20
OpenAI	$30,00
InWorld	$40,00
Cartesia	$46,70
ElevenLabs	$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇵🇹 A xAI anuncia o lançamento das APIs de reconhecimento de fala e de síntese de fala da Grok. A Grok STT apresenta a taxa de erro de palavras e o preço mais baixos do mundo. A Grok TTS oferece a voz mais expressiva e o preço mais baixo do mundo. — @xai no X

🔗 Anúncio da xAI 🔗 Tweet @xai

Claude for Word — a extensão Microsoft em beta

17 de abril — A Anthropic lança Claude for Word em versão beta para os subscritores Pro, Max, Team e Enterprise. A extensão integra-se diretamente na interface do Microsoft Word — sem janela separada — e funciona ao nível do documento.

Funcionalidade	Descrição
Tracked changes nativos	Todas as modificações do Claude aparecem como revisões Word aceitáveis/rejeitáveis
Gestão dos comentários	O Claude lê os comentários, edita o texto ancorado e responde no fio
Preservação do formato	Herda os estilos de títulos, numerações e termos definidos
Cross-context	Partilha o contexto com os add-ins do Excel e do PowerPoint na mesma conversa
Segurança empresarial	Ligação via conta Claude ou fornecedor cloud existente

Os formatos suportados são .docx e .docm. A extensão instala-se via Microsoft Marketplace sob o identificador WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai

Midjourney V8.1 — renderização 2K nativa, 3× mais rápida

14 de abril — A Midjourney colocou online a versão V8.1 do seu gerador de imagens. Esta atualização traz a renderização 2K HD nativa com uma velocidade de geração três vezes superior à da V8, por um custo três vezes inferior.

A V8.1 constitui um refinamento significativo do motor V8: a resolução passa diretamente para 2K sem upscaling posterior, o que melhora a fidelidade dos detalhes finos e reduz os artefactos habituais das etapas de ampliação. A combinação velocidade/preço/resolução posiciona a V8.1 como a versão mais acessível da gama V8.

Luma × Wonder Project — o estúdio Innovative Dreams, apoiado pela AWS

16 de abril — A Luma AI e a Wonder Project (estúdio de produção faith & values, parceiro Prime Video) anunciam conjuntamente o lançamento de Innovative Dreams — uma nova sociedade de produção cinematográfica, laboratório de I&D e empresa de VFX, apoiada e financiada pela Amazon Web Services (AWS).

A Innovative Dreams é apresentada como o primeiro estúdio a implementar em grande escala o Realtime Hybrid Filmmaking — uma abordagem que combina captura de performance, produção virtual e IA generativa (nomeadamente os Luma Agents) em todas as etapas da produção: conceito, pré-visualização, filmagem e pós-produção.

Aspeto	Detalhe
CEO	Jon Erwin (fundador da Wonder Project)
CTO / Luma	Amit Jain (CEO da Luma AI)
Infraestrutura	AWS cloud + IA para I&D e ferramentas de produção virtual
Tecnologia	Luma Agents + Realtime Hybrid Filmmaking
Local	MBS Media Campus, Manhattan Beach, Califórnia
Primeiro projeto	”The Old Stories: Moses” (3 episódios) com Ben Kingsley e O-T Fagbenle, para Prime Video

A abordagem “Realtime Hybrid Filmmaking” elimina os atrasos tradicionais entre filmagem, renderização e montagem. Os atores podem reagir a ambientes digitais em tempo real, o que encurta a distância entre a ideia criativa e o pixel final, preservando ao mesmo tempo a performance humana. A Innovative Dreams também disponibiliza as suas ferramentas a outros estúdios de Hollywood.

🔗 Anúncio da Luma 🔗 Tweet @LumaLabsAI

MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent sem configuração

16 de abril — A MiniMax anuncia uma parceria aprofundada com a NousResearch para integrar o modelo M2.7 no harness Hermes Agent. O anúncio introduz MaxHermes — uma versão cloud gerida do Hermes Agent acessível diretamente a partir de @MiniMaxAgent, sem configuração no terminal nem instalação local.

A coevolução M2.7 × Hermes Agent visa agents de classe superior: o ciclo de autoaperfeiçoamento (self-improving loop) do Hermes tira o melhor partido do modelo M2.7 para tarefas agenticas. Os utilizadores que executam o Hermes localmente também podem ligar o seu agent ao MaxHermes para beneficiar da infraestrutura cloud gerida.

🔗 Tweet @MiniMax_AI

Gemini Skills no Chrome — os seus prompts num clique

14 de abril — O Google Chrome integra uma nova funcionalidade chamada “Skills” para Gemini no navegador. Agora pode guardar os seus prompts mais úteis e relançá-los com um único clique, sem voltar a escrever. Também está disponível uma biblioteca de prompts predefinidos para começar rapidamente.

A funcionalidade foi anunciada a 14 de abril e confirmada como disponível a 15 de abril de 2026, sendo depois retomada no resumo semanal @GoogleAI de 17 de abril.

🔗 Tweet @googlechrome (14 abr.) 🔗 Tweet @googlechrome (15 abr.)

Gemini API — pré-pagamento (Prepay Billing) no Google AI Studio

15 de abril — O Google AI Studio introduz o “Prepay Billing” para a API Gemini. Os developers podem agora comprar créditos antecipadamente e consumi-los à medida que avançam, eliminando surpresas de faturação no fim do mês.

O carregamento automático está disponível quando o saldo está baixo. A funcionalidade é compatível com os Spend Caps (lançados anteriormente) e com os Usage Tiers. Está disponível nos Estados Unidos para novas contas de faturação do Google Cloud, com um lançamento global nas próximas semanas. As contas estabelecidas com níveis de utilização elevados poderão mudar para o postpaid.

🔗 Tweet @GoogleAIStudio

Kimi Prefill-as-a-Service — a inferência cross-datacenter

18 de abril — A Moonshot AI (Kimi) publica um avanço técnico em infraestrutura de inferência: o Prefill-as-a-Service (PraaS). A arquitetura leva a desagregação Prefill/Decode (prefill/decode disaggregation) para além de um único cluster, rumo a uma arquitetura cross-datacenter com hardware heterogéneo.

Os resultados anunciados: 1,54× de throughput adicional e -64% no P90 TTFT (tempo até ao primeiro token). A tecnologia-chave é o modelo híbrido Kimi Linear, que reduz o custo de transferência do cache KV (key-value cache) entre datacenters. Não se trata de um lançamento para o público em geral, mas de uma publicação de investigação em infraestrutura de inferência distribuída, com impacto direto na redução do custo por token para a Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 Paper arXiv

Claude Code v2.1.114 e Runway Seedance 2.0 API

18 de abril — O Claude Code v2.1.114 corrige um crash que ocorria quando um membro de uma equipa de agents pedia acesso a uma ferramenta através da caixa de diálogo de permissões.

16 de abril — A Runway torna Seedance 2.0 acessível via a API Runway para developers. Depois do lançamento web (9 de abril), da renderização 1080p (16 de abril) e da aplicação iOS (17 de abril), o acesso API completa o lançamento multicanal do modelo. A documentação está disponível em dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API

O que isto significa

O lançamento simultâneo das APIs STT e TTS da Grok é o movimento de preços mais agressivo da semana. Ao baixar os preços de 2 a 10 vezes em relação à ElevenLabs, AssemblyAI e OpenAI TTS, a xAI sinaliza claramente que o áudio IA se está a tornar uma commodity — o que vai acelerar a adoção por developers independentes e startups, mas comprimir as margens dos players estabelecidos. A combinação de uma taxa de erro de reconhecimento entre as mais baixas do mercado, preços muito reduzidos e marcas expressivas torna estas APIs imediatamente utilizáveis em produção.

Claude for Word e os Gemini Skills no Chrome traduzem duas estratégias diferentes: a Anthropic integra o seu modelo nas ferramentas de produtividade de escritório já existentes, onde os seus utilizadores passam já os seus dias; o Google, por sua vez, enriquece o seu navegador para tornar o Gemini indispensável no quotidiano. Ambas as abordagens procuram reduzir a fricção de acesso ao modelo.

Luma × Wonder Project × AWS ilustra o surgimento de um novo modelo de estúdio hollywoodiano: IA generativa integrada em todas as etapas de produção, infraestrutura cloud AWS e a ambição de “localizar” em Los Angeles produções que antes eram deslocalizadas. O anúncio é simbólico tanto quanto técnico — valida o Realtime Hybrid Filmmaking como um pipeline industrializável, e não apenas um conceito.

Fontes

Este documento foi traduzido da versão fr para a língua pt usando o modelo gpt-5.4-mini. Para mais informações sobre o processo de tradução, consulte https://gitlab.com/jls42/ai-powered-markdown-translator