Em 18 de abril, a xAI lança duas APIs de áudio — reconhecimento de fala (Speech to Text) e síntese de fala (Text to Speech) — com preços que superam em baixa todos os concorrentes estabelecidos. A Anthropic torna o Claude acessível diretamente no Microsoft Word para os subscritores Pro, Max, Team e Enterprise. A Midjourney lança a V8.1 com renderização 2K nativa, três vezes mais rápida e três vezes mais barata do que a V8. Em paralelo: Luma e Wonder Project abrem o estúdio Innovative Dreams apoiado pela AWS, a MiniMax associa-se à NousResearch para o MaxHermes, a Kimi publica uma arquitetura de inferência cross-datacenter e o Google enriquece o Chrome com os Gemini Skills.
Grok STT e TTS — as APIs de áudio mais baratas do mercado
17 de abril — A xAI lança simultaneamente duas APIs de áudio standalone: uma API de reconhecimento de fala (Speech to Text, STT) e uma API de síntese de fala (Text to Speech, TTS). O posicionamento de preços é direto: ambas as APIs apresentam os preços mais baixos nos respetivos segmentos.
API STT (reconhecimento de fala)
A API STT da Grok oferece dois modos: batch REST e streaming WebSocket. Os preços são, respetivamente, $0,10/hora (batch) e $0,20/hora (streaming), contra $0,22 e $0,39 na ElevenLabs, $0,21 e $0,45 na AssemblyAI, $0,31 e $0,55 na Deepgram.
| Concorrente | Batch (REST) | Streaming (WebSocket) |
|---|---|---|
| Grok | $0,10/h | $0,20/h |
| ElevenLabs | $0,22/h | $0,39/h |
| AssemblyAI | $0,21/h | $0,45/h |
| Deepgram | $0,31/h | $0,55/h |
Em termos de qualidade, a taxa global de erro de palavras (Word Error Rate) da Grok STT é de 6,9%, contra 9,0% para a ElevenLabs, 11,0% para a Deepgram e 12,9% para a AssemblyAI. A Grok STT cobre mais de 25 idiomas com timestamps ao nível da palavra, diarização multi-falante (speaker diarization), suporte multicanal e normalização inversa do texto (conversão de números e datas a partir da fala).
API TTS (síntese de fala)
A API TTS da Grok é tarifada a $4,20 por milhão de caracteres, enquanto a OpenAI cobra $30, a InWorld $40, a Cartesia $46,70 e a ElevenLabs $50. A API suporta REST e streaming WebSocket. Ela introduz marcas expressivas: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — para controlar o tom e o ritmo da síntese.
| Concorrente | Preço / milhão de caracteres |
|---|---|
| Grok | $4,20 |
| OpenAI | $30,00 |
| InWorld | $40,00 |
| Cartesia | $46,70 |
| ElevenLabs | $50,00 |
xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.
🇵🇹 A xAI anuncia o lançamento das APIs de reconhecimento de fala e de síntese de fala da Grok. A Grok STT apresenta a taxa de erro de palavras e o preço mais baixos do mundo. A Grok TTS oferece a voz mais expressiva e o preço mais baixo do mundo. — @xai no X
Claude for Word — a extensão Microsoft em beta
17 de abril — A Anthropic lança Claude for Word em versão beta para os subscritores Pro, Max, Team e Enterprise. A extensão integra-se diretamente na interface do Microsoft Word — sem janela separada — e funciona ao nível do documento.
| Funcionalidade | Descrição |
|---|---|
| Tracked changes nativos | Todas as modificações do Claude aparecem como revisões Word aceitáveis/rejeitáveis |
| Gestão dos comentários | O Claude lê os comentários, edita o texto ancorado e responde no fio |
| Preservação do formato | Herda os estilos de títulos, numerações e termos definidos |
| Cross-context | Partilha o contexto com os add-ins do Excel e do PowerPoint na mesma conversa |
| Segurança empresarial | Ligação via conta Claude ou fornecedor cloud existente |
Os formatos suportados são .docx e .docm. A extensão instala-se via Microsoft Marketplace sob o identificador WA200010453.
🔗 claude.com/claude-for-word 🔗 Tweet @claudeai
Midjourney V8.1 — renderização 2K nativa, 3× mais rápida
14 de abril — A Midjourney colocou online a versão V8.1 do seu gerador de imagens. Esta atualização traz a renderização 2K HD nativa com uma velocidade de geração três vezes superior à da V8, por um custo três vezes inferior.
A V8.1 constitui um refinamento significativo do motor V8: a resolução passa diretamente para 2K sem upscaling posterior, o que melhora a fidelidade dos detalhes finos e reduz os artefactos habituais das etapas de ampliação. A combinação velocidade/preço/resolução posiciona a V8.1 como a versão mais acessível da gama V8.
Luma × Wonder Project — o estúdio Innovative Dreams, apoiado pela AWS
16 de abril — A Luma AI e a Wonder Project (estúdio de produção faith & values, parceiro Prime Video) anunciam conjuntamente o lançamento de Innovative Dreams — uma nova sociedade de produção cinematográfica, laboratório de I&D e empresa de VFX, apoiada e financiada pela Amazon Web Services (AWS).
A Innovative Dreams é apresentada como o primeiro estúdio a implementar em grande escala o Realtime Hybrid Filmmaking — uma abordagem que combina captura de performance, produção virtual e IA generativa (nomeadamente os Luma Agents) em todas as etapas da produção: conceito, pré-visualização, filmagem e pós-produção.
| Aspeto | Detalhe |
|---|---|
| CEO | Jon Erwin (fundador da Wonder Project) |
| CTO / Luma | Amit Jain (CEO da Luma AI) |
| Infraestrutura | AWS cloud + IA para I&D e ferramentas de produção virtual |
| Tecnologia | Luma Agents + Realtime Hybrid Filmmaking |
| Local | MBS Media Campus, Manhattan Beach, Califórnia |
| Primeiro projeto | ”The Old Stories: Moses” (3 episódios) com Ben Kingsley e O-T Fagbenle, para Prime Video |
A abordagem “Realtime Hybrid Filmmaking” elimina os atrasos tradicionais entre filmagem, renderização e montagem. Os atores podem reagir a ambientes digitais em tempo real, o que encurta a distância entre a ideia criativa e o pixel final, preservando ao mesmo tempo a performance humana. A Innovative Dreams também disponibiliza as suas ferramentas a outros estúdios de Hollywood.
🔗 Anúncio da Luma 🔗 Tweet @LumaLabsAI
MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent sem configuração
16 de abril — A MiniMax anuncia uma parceria aprofundada com a NousResearch para integrar o modelo M2.7 no harness Hermes Agent. O anúncio introduz MaxHermes — uma versão cloud gerida do Hermes Agent acessível diretamente a partir de @MiniMaxAgent, sem configuração no terminal nem instalação local.
A coevolução M2.7 × Hermes Agent visa agents de classe superior: o ciclo de autoaperfeiçoamento (self-improving loop) do Hermes tira o melhor partido do modelo M2.7 para tarefas agenticas. Os utilizadores que executam o Hermes localmente também podem ligar o seu agent ao MaxHermes para beneficiar da infraestrutura cloud gerida.
Gemini Skills no Chrome — os seus prompts num clique
14 de abril — O Google Chrome integra uma nova funcionalidade chamada “Skills” para Gemini no navegador. Agora pode guardar os seus prompts mais úteis e relançá-los com um único clique, sem voltar a escrever. Também está disponível uma biblioteca de prompts predefinidos para começar rapidamente.
A funcionalidade foi anunciada a 14 de abril e confirmada como disponível a 15 de abril de 2026, sendo depois retomada no resumo semanal @GoogleAI de 17 de abril.
🔗 Tweet @googlechrome (14 abr.) 🔗 Tweet @googlechrome (15 abr.)
Gemini API — pré-pagamento (Prepay Billing) no Google AI Studio
15 de abril — O Google AI Studio introduz o “Prepay Billing” para a API Gemini. Os developers podem agora comprar créditos antecipadamente e consumi-los à medida que avançam, eliminando surpresas de faturação no fim do mês.
O carregamento automático está disponível quando o saldo está baixo. A funcionalidade é compatível com os Spend Caps (lançados anteriormente) e com os Usage Tiers. Está disponível nos Estados Unidos para novas contas de faturação do Google Cloud, com um lançamento global nas próximas semanas. As contas estabelecidas com níveis de utilização elevados poderão mudar para o postpaid.
Kimi Prefill-as-a-Service — a inferência cross-datacenter
18 de abril — A Moonshot AI (Kimi) publica um avanço técnico em infraestrutura de inferência: o Prefill-as-a-Service (PraaS). A arquitetura leva a desagregação Prefill/Decode (prefill/decode disaggregation) para além de um único cluster, rumo a uma arquitetura cross-datacenter com hardware heterogéneo.
Os resultados anunciados: 1,54× de throughput adicional e -64% no P90 TTFT (tempo até ao primeiro token). A tecnologia-chave é o modelo híbrido Kimi Linear, que reduz o custo de transferência do cache KV (key-value cache) entre datacenters. Não se trata de um lançamento para o público em geral, mas de uma publicação de investigação em infraestrutura de inferência distribuída, com impacto direto na redução do custo por token para a Kimi.
🔗 Tweet @Kimi_Moonshot 🔗 Paper arXiv
Claude Code v2.1.114 e Runway Seedance 2.0 API
18 de abril — O Claude Code v2.1.114 corrige um crash que ocorria quando um membro de uma equipa de agents pedia acesso a uma ferramenta através da caixa de diálogo de permissões.
16 de abril — A Runway torna Seedance 2.0 acessível via a API Runway para developers. Depois do lançamento web (9 de abril), da renderização 1080p (16 de abril) e da aplicação iOS (17 de abril), o acesso API completa o lançamento multicanal do modelo. A documentação está disponível em dev.runwayml.com.
🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API
O que isto significa
O lançamento simultâneo das APIs STT e TTS da Grok é o movimento de preços mais agressivo da semana. Ao baixar os preços de 2 a 10 vezes em relação à ElevenLabs, AssemblyAI e OpenAI TTS, a xAI sinaliza claramente que o áudio IA se está a tornar uma commodity — o que vai acelerar a adoção por developers independentes e startups, mas comprimir as margens dos players estabelecidos. A combinação de uma taxa de erro de reconhecimento entre as mais baixas do mercado, preços muito reduzidos e marcas expressivas torna estas APIs imediatamente utilizáveis em produção.
Claude for Word e os Gemini Skills no Chrome traduzem duas estratégias diferentes: a Anthropic integra o seu modelo nas ferramentas de produtividade de escritório já existentes, onde os seus utilizadores passam já os seus dias; o Google, por sua vez, enriquece o seu navegador para tornar o Gemini indispensável no quotidiano. Ambas as abordagens procuram reduzir a fricção de acesso ao modelo.
Luma × Wonder Project × AWS ilustra o surgimento de um novo modelo de estúdio hollywoodiano: IA generativa integrada em todas as etapas de produção, infraestrutura cloud AWS e a ambição de “localizar” em Los Angeles produções que antes eram deslocalizadas. O anúncio é simbólico tanto quanto técnico — valida o Realtime Hybrid Filmmaking como um pipeline industrializável, e não apenas um conceito.
Fontes
- Anúncio da xAI — Grok STT e TTS APIs
- Tweet @xai — Grok STT e TTS
- Tweet @claudeai — Claude for Word
- claude.com/claude-for-word
- Anúncio da Luma AI — Innovative Dreams
- Tweet @LumaLabsAI — Innovative Dreams
- Tweet @MiniMax_AI — M2.7 × NousResearch
- Tweet @googlechrome — Gemini Skills (14 abr.)
- Tweet @googlechrome — Gemini Skills (15 abr.)
- Tweet @GoogleAIStudio — Prepay Billing
- Tweet @Kimi_Moonshot — PraaS
- Paper arXiv — Kimi PraaS
- CHANGELOG Claude Code — v2.1.114
- Tweet @runwayml — Seedance 2.0 API
Este documento foi traduzido da versão fr para a língua pt usando o modelo gpt-5.4-mini. Para mais informações sobre o processo de tradução, consulte https://gitlab.com/jls42/ai-powered-markdown-translator