Grok STT i TTS APIs w okazyjnych cenach, Claude for Word, Midjourney V8.1

18 kwietnia xAI uruchamia dwie audio APIs — rozpoznawanie mowy (Speech to Text) i syntezę mowy (Text to Speech) — z cenami, które przebijają wszystkich uznanych konkurentów. Anthropic udostępnia Claude bezpośrednio w Microsoft Word dla subskrybentów Pro, Max, Team i Enterprise. Midjourney wdraża V8.1 z natywnym renderingiem 2K, trzy razy szybszym i trzy razy tańszym niż V8. Równolegle: Luma i Wonder Project otwierają studio Innovative Dreams wspierane przez AWS, MiniMax łączy siły z NousResearch dla MaxHermes, Kimi publikuje architekturę inferencji cross-datacenter, a Google wzbogaca Chrome o Gemini Skills.

Grok STT i TTS — najtańsze audio APIs na rynku

17 kwietnia — xAI uruchamia jednocześnie dwie standalone audio APIs: API rozpoznawania mowy (Speech to Text, STT) oraz API syntezy mowy (Text to Speech, TTS). Pozycjonowanie cenowe jest bezpośrednie: obie APIs mają najniższe ceny w swoich segmentach.

API STT (rozpoznawanie mowy)

API STT od Grok oferuje dwa tryby: batch REST i streaming WebSocket. Ceny wynoszą odpowiednio $0,10/godz. (batch) i $0,20/godz. (streaming), wobec $0,22 i $0,39 w ElevenLabs, $0,21 i $0,45 w AssemblyAI oraz $0,31 i $0,55 w Deepgram.

Konkurent	Batch (REST)	Streaming (WebSocket)
Grok	$0,10/godz.	$0,20/godz.
ElevenLabs	$0,22/godz.	$0,39/godz.
AssemblyAI	$0,21/godz.	$0,45/godz.
Deepgram	$0,31/godz.	$0,55/godz.

Pod względem jakości globalny wskaźnik błędu słów (Word Error Rate) w Grok STT wynosi 6,9%, wobec 9,0% dla ElevenLabs, 11,0% dla Deepgram i 12,9% dla AssemblyAI. Grok STT obsługuje 25+ języków z timestampami na poziomie słowa, diarizacją wielu mówców (speaker diarization), wsparciem wielokanałowym oraz odwrotną normalizacją tekstu (zamiana liczb i dat z mowy).

API TTS (synteza mowy)

API TTS od Grok kosztuje $4,20 za milion znaków, podczas gdy OpenAI pobiera $30, InWorld $40, Cartesia $46,70, a ElevenLabs $50. API obsługuje REST i streaming WebSocket. Wprowadza znaczniki ekspresji: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — do sterowania tonem i rytmem syntezy.

Konkurent	Cena / milion znaków
Grok	$4,20
OpenAI	$30,00
InWorld	$40,00
Cartesia	$46,70
ElevenLabs	$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇵🇱 xAI ogłasza uruchomienie API rozpoznawania mowy oraz syntezy mowy Grok. Grok STT ma najniższy na świecie wskaźnik błędu słów i najniższą cenę. Grok TTS oferuje najbardziej ekspresyjną mowę i najniższą cenę na świecie. — @xai na X

🔗 Ogłoszenie xAI 🔗 Tweet @xai

Claude for Word — rozszerzenie Microsoft w becie

17 kwietnia — Anthropic uruchamia Claude for Word w wersji beta dla subskrybentów Pro, Max, Team i Enterprise. Rozszerzenie integruje się bezpośrednio z interfejsem Microsoft Word — bez osobnego okna — i działa na poziomie dokumentu.

Funkcjonalność	Opis
Natywne śledzone zmiany	Wszystkie modyfikacje Claude pojawiają się jako akceptowalne/odrzucalne poprawki Word
Zarządzanie komentarzami	Claude czyta komentarze, edytuje powiązany tekst i odpowiada w wątku
Zachowanie formatowania	Dziedziczy style nagłówków, numerację i zdefiniowane terminy
Cross-context	Dzieli kontekst z add-inami Excel i PowerPoint w jednej rozmowie
Bezpieczeństwo dla firm	Logowanie przez konto Claude lub istniejącego dostawcę chmurowego

Obsługiwane formaty to .docx i .docm. Rozszerzenie instaluje się przez Microsoft Marketplace pod identyfikatorem WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai

Midjourney V8.1 — natywny rendering 2K, 3× szybciej

14 kwietnia — Midjourney udostępnił online wersję V8.1 swojego generatora obrazów. Aktualizacja wprowadza natywny rendering 2K HD z prędkością generowania trzykrotnie wyższą niż V8, przy koszcie trzy razy niższym.

V8.1 stanowi znaczące dopracowanie silnika V8: rozdzielczość przechodzi bezpośrednio do 2K bez późniejszego upscalingu, co poprawia wierność drobnych detali i ogranicza typowe artefakty etapów powiększania. Połączenie szybkości/ceny/rozdzielczości pozycjonuje V8.1 jako najbardziej dostępną wersję linii V8.

Luma × Wonder Project — studio Innovative Dreams, wspierane przez AWS

16 kwietnia — Luma AI i Wonder Project (studio produkcyjne faith & values, partner Prime Video) ogłaszają wspólnie uruchomienie Innovative Dreams — nowej firmy produkcji filmowej, laboratorium R&D oraz przedsiębiorstwa VFX, wspieranej i finansowanej przez Amazon Web Services (AWS).

Innovative Dreams jest przedstawiane jako pierwsze studio, które wdraża na dużą skalę Realtime Hybrid Filmmaking — podejście łączące capture performance, produkcję wirtualną i generatywną AI (w tym Luma Agents) na wszystkich etapach produkcji: koncept, prewizualizacja, zdjęcia i postprodukcja.

Aspekt	Szczegóły
Prezes	Jon Erwin (założyciel Wonder Project)
CTO / Luma	Amit Jain (prezes Luma AI)
Infrastruktura	chmura AWS + AI do R&D i narzędzi produkcji wirtualnej
Technologia	Luma Agents + Realtime Hybrid Filmmaking
Lokalizacja	MBS Media Campus, Manhattan Beach, Kalifornia
Pierwszy projekt	”The Old Stories: Moses” (3 odcinki) z Benem Kingsleyem i O-T Fagbenle, dla Prime Video

Podejście “Realtime Hybrid Filmmaking” eliminuje tradycyjne opóźnienia między zdjęciami, renderingiem i montażem. Aktorzy mogą reagować na cyfrowe środowiska w czasie rzeczywistym, co skraca dystans między pomysłem kreatywnym a finalnym pikselem, zachowując jednocześnie ludzką grę aktorską. Innovative Dreams udostępnia też swoje narzędzia innym hollywoodzkim studiom.

🔗 Ogłoszenie Luma 🔗 Tweet @LumaLabsAI

MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent bez konfiguracji

16 kwietnia — MiniMax ogłasza pogłębione partnerstwo z NousResearch, aby zintegrować model M2.7 w harnessie Hermes Agent. Ogłoszenie wprowadza MaxHermes — zarządzaną wersję Hermes Agent w chmurze, dostępną bezpośrednio z poziomu @MiniMaxAgent, bez konfiguracji w terminalu ani instalacji lokalnej.

Współewolucja M2.7 × Hermes Agent celuje w agentów wyższej klasy: pętla samodoskonalenia (self-improving loop) Hermes czerpie maksimum z modelu M2.7 w zadaniach agentowych. Użytkownicy uruchamiający Hermes lokalnie mogą także połączyć swojego agenta z MaxHermes, aby korzystać z zarządzanej infrastruktury chmurowej.

🔗 Tweet @MiniMax_AI

Gemini Skills w Chrome — twoje prompty jednym kliknięciem

14 kwietnia — Google Chrome integruje nową funkcję o nazwie “Skills” dla Gemini w przeglądarce. Teraz możesz zapisywać swoje najbardziej przydatne prompty i uruchamiać je ponownie jednym kliknięciem, bez przepisywania. Dostępna jest również biblioteka gotowych promptów, aby szybko zacząć.

Funkcja została ogłoszona 14 kwietnia i potwierdzona jako dostępna 15 kwietnia 2026, a następnie ujęta w tygodniowym podsumowaniu @GoogleAI z 17 kwietnia.

🔗 Tweet @googlechrome (14 kwi.) 🔗 Tweet @googlechrome (15 kwi.)

Gemini API — przedpłata (Prepay Billing) w Google AI Studio

15 kwietnia — Google AI Studio wprowadza “Prepay Billing” dla API Gemini. Deweloperzy mogą teraz kupować kredyty z góry i zużywać je stopniowo, eliminując niespodzianki związane z fakturą na koniec miesiąca.

Automatyczne doładowanie jest dostępne, gdy saldo jest niskie. Funkcja jest zgodna z Spend Caps (uruchomionymi wcześniej) oraz Usage Tiers. Jest dostępna w Stanach Zjednoczonych dla nowych kont rozliczeniowych Google Cloud, a globalne wdrożenie nastąpi w kolejnych tygodniach. Ustanowione konta z wysokimi poziomami użycia będą mogły przejść na postpaid.

🔗 Tweet @GoogleAIStudio

Kimi Prefill-as-a-Service — inferencja cross-datacenter

18 kwietnia — Moonshot AI (Kimi) publikuje techniczny postęp w infrastrukturze inferencji: Prefill-as-a-Service (PraaS). Architektura rozszerza desagregację Prefill/Decode (prefill/decode disaggregation) poza pojedynczy klaster, w stronę architektury cross-datacenter ze zróżnicowanym sprzętem.

Ogłoszone wyniki: 1,54× dodatkowego throughputu oraz -64% na P90 TTFT (czas do pierwszego tokenu). Kluczową technologią jest hybrydowy model Kimi Linear, który redukuje koszt transferu pamięci podręcznej KV (key-value cache) między centrami danych. To nie jest premiera dla szerokiej publiczności, lecz publikacja badawcza z zakresu rozproszonej infrastruktury inferencji, mająca bezpośredni wpływ na obniżenie kosztu na token dla Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 Papier arXiv

Claude Code v2.1.114 i Runway Seedance 2.0 API

18 kwietnia — Claude Code v2.1.114 naprawia błąd powodujący awarię, gdy członek zespołu agentów prosił o dostęp do narzędzia przez okno dialogowe uprawnień.

16 kwietnia — Runway udostępnia Seedance 2.0 przez API Runway dla deweloperów. Po premierze webowej (9 kwietnia), renderingu 1080p (16 kwietnia) i aplikacji iOS (17 kwietnia), dostęp przez API dopełnia wielokanałowe wdrożenie modelu. Dokumentacja jest dostępna pod dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API

Co to oznacza

Jednoczesne uruchomienie API STT i TTS od Grok to najbardziej agresywny ruch cenowy tygodnia. Obniżając ceny 2 do 10 razy względem ElevenLabs, AssemblyAI i OpenAI TTS, xAI wyraźnie sygnalizuje, że audio AI staje się towarem — co przyspieszy adopcję wśród niezależnych deweloperów i startupów, ale ścisnie marże uznanych graczy. Połączenie jednego z najniższych na rynku wskaźników błędu rozpoznawania, okazyjnych cen i ekspresyjnych znaczników sprawia, że te APIs są natychmiast gotowe do użycia produkcyjnego.

Claude for Word i Gemini Skills w Chrome reprezentują dwie różne strategie: Anthropic integruje swój model z istniejącymi narzędziami produktywności biurowej, gdzie jego użytkownicy już spędzają dni; Google z kolei wzmacnia swoją przeglądarkę, aby uczynić Gemini nieodzownym na co dzień. Oba podejścia próbują zmniejszyć tarcie w dostępie do modelu.

Luma × Wonder Project × AWS ilustruje pojawienie się nowego modelu hollywoodzkiego studia: generatywna AI zintegrowana na każdym etapie produkcji, infrastruktura chmurowa AWS i ambicja “lokalizowania” w Los Angeles produkcji, które wcześniej przenoszono poza miasto. Ogłoszenie ma znaczenie zarówno symboliczne, jak i techniczne — potwierdza Realtime Hybrid Filmmaking jako pipeline, który można uprzemysłowić, a nie tylko jako koncepcję.

Źródła

Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5.4-mini. Aby uzyskać więcej informacji o procesie tłumaczenia, zobacz https://github.com/jls42/ai-powered-markdown-translator