Grok STT und TTS APIs zu Schleuderpreisen, Claude für Word, Midjourney V8.1

Am 18. April startet xAI zwei Audio-APIs — Spracherkennung (Speech to Text) und Sprachsynthese (Text to Speech) — mit Tarifen, die alle etablierten Konkurrenten unterbieten. Anthropic macht Claude direkt in Microsoft Word für seine Pro-, Max-, Team- und Enterprise-Abonnenten zugänglich. Midjourney rollt V8.1 mit nativem 2K-Rendering aus, dreimal schneller und dreimal günstiger als V8. Parallel dazu: Luma und Wonder Project eröffnen das von AWS unterstützte Studio Innovative Dreams, MiniMax geht mit NousResearch eine Partnerschaft für MaxHermes ein, Kimi veröffentlicht eine Cross-Datacenter-Inference-Architektur, und Google erweitert Chrome um die Gemini Skills.

Grok STT und TTS — die günstigsten Audio-APIs auf dem Markt

17. April — xAI startet gleichzeitig zwei eigenständige Audio-APIs: eine Spracherkennungs-API (Speech to Text, STT) und eine Sprachsynthese-API (Text to Speech, TTS). Die Preisstrategie ist offensiv: Beide APIs haben die niedrigsten Preise in ihrem jeweiligen Segment.

STT-API (Spracherkennung)

Die Grok-STT-API bietet zwei Modi: Batch REST und Streaming WebSocket. Die Preise liegen bei $0,10/Stunde (Batch) und $0,20/Stunde (Streaming), gegenüber $0,22 und $0,39 bei ElevenLabs, $0,21 und $0,45 bei AssemblyAI sowie $0,31 und $0,55 bei Deepgram.

Wettbewerber	Batch (REST)	Streaming (WebSocket)
Grok	$0,10/h	$0,20/h
ElevenLabs	$0,22/h	$0,39/h
AssemblyAI	$0,21/h	$0,45/h
Deepgram	$0,31/h	$0,55/h

Bei der Qualität liegt die globale Wortfehlerrate (Word Error Rate) von Grok STT bei 6,9%, gegenüber 9,0% bei ElevenLabs, 11,0% bei Deepgram und 12,9% bei AssemblyAI. Grok STT unterstützt 25+ Sprachen mit Wort-Zeitstempeln, Mehrsprecher-Diarisierung (speaker diarization), Multikanal-Unterstützung und inverse Textnormalisierung (Umwandlung von Zahlen und Daten aus gesprochener Sprache).

TTS-API (Sprachsynthese)

Die Grok-TTS-API kostet $4,20 pro eine Million Zeichen, während OpenAI $30, InWorld $40, Cartesia $46,70 und ElevenLabs $50 berechnen. Die API unterstützt REST und Streaming WebSocket. Sie führt ausdrucksstarke Markups ein: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — um Tonfall und Rhythmus der Synthese zu steuern.

Wettbewerber	Preis / Million Zeichen
Grok	$4,20
OpenAI	$30,00
InWorld	$40,00
Cartesia	$46,70
ElevenLabs	$50,00

xAI kündigt den Start von Grok-Spracherkennungs- und Sprachsynthese-APIs an. Grok STT hat die weltweit niedrigste Wortfehlerrate und den niedrigsten Preis. Grok TTS hat die ausdrucksstärkste Stimme der Welt und den niedrigsten Preis.

🇩🇪 xAI kündigt den Start von Grok-Spracherkennungs- und Sprachsynthese-APIs an. Grok STT hat die weltweit niedrigste Wortfehlerrate und den niedrigsten Preis. Grok TTS hat die ausdrucksstärkste Stimme der Welt und den niedrigsten Preis. — @xai auf X

🔗 Ankündigung von xAI 🔗 Tweet @xai

Claude for Word — die Microsoft-Erweiterung in der Beta

17. April — Anthropic veröffentlicht Claude for Word in der Beta-Version für Pro-, Max-, Team- und Enterprise-Abonnenten. Die Erweiterung integriert sich direkt in die Microsoft-Word-Oberfläche — ohne separates Fenster — und funktioniert auf Dokumentebene.

Funktion	Beschreibung
Native Änderungsverfolgung	Alle Änderungen von Claude erscheinen als akzeptierbare/ablehnbare Word-Revisionen
Kommentarmanagement	Claude liest Kommentare, bearbeitet den verankerten Text und antwortet im Thread
Formatbeibehaltung	Übernimmt Titelstile, Nummerierungen und definierte Begriffe
Cross-Context	Teilt den Kontext mit den Excel- und PowerPoint-Add-ins in einer einzigen Unterhaltung
Unternehmenssicherheit	Anmeldung über Claude-Konto oder vorhandenen Cloud-Anbieter

Unterstützte Formate sind .docx und .docm. Die Erweiterung wird über den Microsoft Marketplace unter der Kennung WA200010453 installiert.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai

Midjourney V8.1 — natives 2K-Rendering, 3× schneller

14. April — Midjourney hat die Version V8.1 seines Bildgenerators online gestellt. Dieses Update bringt das native 2K-HD-Rendering mit einer dreimal höheren Generierungsgeschwindigkeit als V8 bei dreimal geringeren Kosten.

V8.1 ist eine bedeutende Verfeinerung der V8-Engine: Die Auflösung geht direkt auf 2K, ohne nachträgliches Upscaling, was die Genauigkeit feiner Details verbessert und die üblichen Artefakte von Vergrößerungsschritten reduziert. Die Kombination aus Geschwindigkeit, Preis und Auflösung positioniert V8.1 als die zugänglichste Version der V8-Reihe.

Luma × Wonder Project — das Studio Innovative Dreams, unterstützt von AWS

16. April — Luma AI und Wonder Project (ein faith & values-Produktionsstudio, Prime-Video-Partner) kündigen gemeinsam den Start von Innovative Dreams an — ein neues Filmproduktionsunternehmen, ein R&D-Labor und ein VFX-Unternehmen, unterstützt und finanziert von Amazon Web Services (AWS).

Innovative Dreams wird als das erste Studio vorgestellt, das Realtime Hybrid Filmmaking in großem Maßstab einsetzt — ein Ansatz, der Performance Capture, virtuelle Produktion und generative KI (insbesondere die Luma Agents) in allen Produktionsphasen verbindet: Konzept, Previsualisierung, Dreh und Postproduktion.

Aspekt	Detail
CEO	Jon Erwin (Gründer von Wonder Project)
CTO / Luma	Amit Jain (CEO von Luma AI)
Infrastruktur	AWS-Cloud + KI für R&D und Tools für virtuelle Produktion
Technologie	Luma Agents + Realtime Hybrid Filmmaking
Standort	MBS Media Campus, Manhattan Beach, Kalifornien
Erstes Projekt	”The Old Stories: Moses” (3 Episoden) mit Ben Kingsley und O-T Fagbenle, für Prime Video

Der Ansatz „Realtime Hybrid Filmmaking“ beseitigt die traditionellen Verzögerungen zwischen Dreh, Rendering und Schnitt. Schauspieler können in Echtzeit auf digitale Umgebungen reagieren, was die Distanz zwischen kreativer Idee und finalem Pixel verkürzt und zugleich die menschliche Performance bewahrt. Innovative Dreams bietet seine Werkzeuge auch anderen Hollywood-Studios an.

🔗 Ankündigung von Luma 🔗 Tweet @LumaLabsAI

MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent ohne Konfiguration

16. April — MiniMax kündigt eine vertiefte Partnerschaft mit NousResearch an, um das Modell M2.7 in den Hermes Agent-Harness zu integrieren. Die Ankündigung stellt MaxHermes vor — eine verwaltete Cloud-Version von Hermes Agent, die direkt über @MiniMaxAgent zugänglich ist, ohne Terminal-Konfiguration oder lokale Installation.

Die gemeinsame Weiterentwicklung von M2.7 und Hermes Agent zielt auf Agenten der Spitzenklasse: Die self-improving loop von Hermes holt das Beste aus dem Modell M2.7 für agentische Aufgaben heraus. Nutzer, die Hermes lokal ausführen, können ihren Agenten außerdem mit MaxHermes verbinden, um von der verwalteten Cloud-Infrastruktur zu profitieren.

🔗 Tweet @MiniMax_AI

Gemini Skills in Chrome — Ihre Prompts mit einem Klick

14. April — Google Chrome integriert eine neue Funktion namens „Skills“ für Gemini im Browser. Sie können nun Ihre nützlichsten Prompts speichern und mit nur einem Klick erneut ausführen, ohne sie neu einzugeben. Eine Bibliothek vorgefertigter Prompts ist ebenfalls verfügbar, um schnell zu starten.

Die Funktion wurde am 14. April angekündigt und am 15. April 2026 als verfügbar bestätigt, bevor sie im wöchentlichen @GoogleAI-Rückblick vom 17. April erneut aufgegriffen wurde.

🔗 Tweet @googlechrome (14. Apr.) 🔗 Tweet @googlechrome (15. Apr.)

Gemini API — Vorauszahlung (Prepay Billing) in Google AI Studio

15. April — Google AI Studio führt „Prepay Billing“ für die Gemini API ein. Entwickler können nun Credits im Voraus kaufen und nach und nach verbrauchen, wodurch Überraschungen bei der Abrechnung am Monatsende vermieden werden.

Automatisches Aufladen ist verfügbar, wenn das Guthaben niedrig ist. Die Funktion ist mit den bereits eingeführten Spend Caps und den Usage Tiers kompatibel. Sie ist in den USA für neue Google-Cloud-Billing-Konten verfügbar, mit weltweiter Einführung in den kommenden Wochen. Bestehende Konten mit hohen Nutzungsstufen können auf Postpaid umsteigen.

🔗 Tweet @GoogleAIStudio

Kimi Prefill-as-a-Service — Inference über mehrere Datacenter hinweg

18. April — Moonshot AI (Kimi) veröffentlicht einen technischen Fortschritt in der Inferenz-Infrastruktur: Prefill-as-a-Service (PraaS). Die Architektur treibt die Prefill/Decode-Disaggregation (prefill/decode disaggregation) über einen einzelnen Cluster hinaus in eine Cross-Datacenter-Architektur mit heterogener Hardware.

Die angekündigten Ergebnisse: 1,54× mehr Durchsatz (throughput) und -64% beim P90 TTFT (Zeit bis zum ersten token). Die Schlüsseltechnologie ist das hybride Modell Kimi Linear, das die Kosten für die Übertragung des KV-Cache (key-value cache) zwischen Datacentern reduziert. Das ist kein öffentliches Launch-Produkt, sondern eine Forschungsarbeit zur verteilten Inferenz-Infrastruktur, mit direktem Einfluss auf die Senkung der Kosten pro token für Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 arXiv-Paper

Claude Code v2.1.114 und Runway Seedance 2.0 API

18. April — Claude Code v2.1.114 behebt einen Absturz, der auftrat, wenn ein Mitglied eines Agenten-Teams über den Berechtigungsdialog Zugriff auf ein Tool anforderte.

16. April — Runway macht Seedance 2.0 für Entwickler über die Runway API zugänglich. Nach dem Web-Launch (9. April), dem 1080p-Rendering (16. April) und der iOS-App (17. April) vervollständigt der API-Zugang den Multi-Channel-Rollout des Modells. Die Dokumentation ist unter dev.runwayml.com verfügbar.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API

Was das bedeutet

Der gleichzeitige Start der Grok-STT- und TTS-APIs ist die aggressivste Preisbewegung der Woche. Indem xAI die Preise im Vergleich zu ElevenLabs, AssemblyAI und OpenAI TTS um das 2- bis 10-Fache senkt, signalisiert das Unternehmen klar, dass KI-Audio zur Commodity wird — das wird die Akzeptanz für unabhängige Entwickler und Startups beschleunigen, aber die Margen etablierter Anbieter unter Druck setzen. Die Kombination aus einer der niedrigsten Erkennungsfehlerraten am Markt, Schleuderpreisen und ausdrucksstarken Markups macht diese APIs sofort produktionsreif.

Claude for Word und die Gemini Skills in Chrome stehen für zwei unterschiedliche Strategien: Anthropic integriert sein Modell in bestehende Produktivitätswerkzeuge, in denen seine Nutzer ohnehin den Tag verbringen; Google wiederum erweitert seinen Browser, um Gemini im Alltag unverzichtbar zu machen. Beide Ansätze zielen darauf ab, die Zugangshürden zum Modell zu senken.

Luma × Wonder Project × AWS veranschaulicht das Entstehen eines neuen Hollywood-Studiomodells: generative KI, die in jede Produktionsphase integriert ist, AWS-Cloud-Infrastruktur und der Anspruch, Produktionen, die ausgelagert wurden, in Los Angeles zu „lokalisieren“. Die Ankündigung ist ebenso symbolisch wie technisch — sie bestätigt Realtime Hybrid Filmmaking als industrialisierbare Pipeline und nicht nur als Konzept.

Quellen

Dieses Dokument wurde von der Version fr in die Sprache de unter Verwendung des Modells gpt-5.4-mini übersetzt. Für weitere Informationen zum Übersetzungsprozess besuchen Sie https://gitlab.com/jls42/ai-powered-markdown-translator