18 kwietnia xAI uruchamia dwa audio APIs — rozpoznawanie mowy (Speech to Text) i syntezę mowy (Text to Speech) — z cenami, które podcinają wszystkich uznanych konkurentów. Anthropic udostępnia Claude bezpośrednio w Microsoft Word dla subskrybentów Pro, Max, Team i Enterprise. Midjourney wdraża V8.1 z natywnym renderowaniem 2K, trzy razy szybszym i trzy razy tańszym niż V8. Równolegle: Luma i Wonder Project otwierają studio Innovative Dreams wspierane przez AWS, MiniMax łączy siły z NousResearch przy MaxHermes, Kimi publikuje architekturę inferencji cross-datacenter, a Google wzbogaca Chrome o Gemini Skills.
Grok STT i TTS — najtańsze audio APIs na rynku
17 kwietnia — xAI uruchamia jednocześnie dwa samodzielne audio APIs: API rozpoznawania mowy (Speech to Text, STT) oraz API syntezy mowy (Text to Speech, TTS). Pozycjonowanie cenowe jest bezpośrednie: oba APIs mają najniższe ceny w swoich segmentach.
API STT (rozpoznawanie mowy)
API STT od Grok oferuje dwa tryby: batch REST oraz streaming WebSocket. Ceny wynoszą odpowiednio $0,10/godz. (batch) i $0,20/godz. (streaming), wobec $0,22 i $0,39 w ElevenLabs, $0,21 i $0,45 w AssemblyAI, $0,31 i $0,55 w Deepgram.
| Konkurent | Batch (REST) | Streaming (WebSocket) |
|---|---|---|
| Grok | $0,10/h | $0,20/h |
| ElevenLabs | $0,22/h | $0,39/h |
| AssemblyAI | $0,21/h | $0,45/h |
| Deepgram | $0,31/h | $0,55/h |
Jeśli chodzi o jakość, globalny wskaźnik Word Error Rate Grok STT wynosi 6,9%, wobec 9,0% dla ElevenLabs, 11,0% dla Deepgram i 12,9% dla AssemblyAI. Grok STT obsługuje 25+ języków, oferuje znaczniki czasu na poziomie słowa, diarizację wielu mówców (speaker diarization), obsługę wielokanałową oraz odwrotną normalizację tekstu (konwersję liczb i dat na podstawie mowy).
API TTS (synteza mowy)
API TTS od Grok kosztuje $4,20 za milion znaków, podczas gdy OpenAI liczy $30, InWorld $40, Cartesia $46,70, a ElevenLabs $50. API obsługuje REST i streaming WebSocket. Wprowadza też znaczniki ekspresji: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — do sterowania tonem i rytmem syntezy.
| Konkurent | Cena / milion znaków |
|---|---|
| Grok | $4,20 |
| OpenAI | $30,00 |
| InWorld | $40,00 |
| Cartesia | $46,70 |
| ElevenLabs | $50,00 |
xAI ogłasza uruchomienie APIs Grok do zamiany mowy na tekst i tekstu na mowę. Grok STT ma najniższy na świecie Word Error Rate oraz najniższą cenę. Grok TTS ma najbardziej ekspresyjny głos na świecie i najniższą cenę.
🇵🇱 xAI ogłasza uruchomienie APIs Grok do zamiany mowy na tekst i tekstu na mowę. Grok STT ma najniższy na świecie Word Error Rate oraz najniższą cenę. Grok TTS ma najbardziej ekspresyjny głos na świecie i najniższą cenę. — @xai na X
Claude for Word — rozszerzenie Microsoft w becie
17 kwietnia — Anthropic uruchamia Claude for Word w wersji beta dla subskrybentów Pro, Max, Team i Enterprise. Rozszerzenie integruje się bezpośrednio z interfejsem Microsoft Word — bez osobnego okna — i działa na poziomie dokumentu.
| Funkcjonalność | Opis |
|---|---|
| Natywny tracked changes | Wszystkie zmiany Claude pojawiają się jako akceptowalne/odrzucalne poprawki Word |
| Obsługa komentarzy | Claude czyta komentarze, edytuje zakotwiczony tekst i odpowiada w wątku |
| Zachowanie formatowania | Dziedziczy style nagłówków, numerację i zdefiniowane terminy |
| Cross-context | Dzieli kontekst z add-ins Excel i PowerPoint w jednej rozmowie |
| Bezpieczeństwo enterprise | Logowanie przez konto Claude lub istniejącego dostawcę chmurowego |
Obsługiwane formaty to .docx i .docm. Rozszerzenie instaluje się przez Microsoft Marketplace pod identyfikatorem WA200010453.
🔗 claude.com/claude-for-word 🔗 Tweet @claudeai
Midjourney V8.1 — natywne renderowanie 2K, 3× szybciej
14 kwietnia — Midjourney udostępnił online wersję V8.1 swojego generatora obrazów. Ta aktualizacja wprowadza natywne renderowanie 2K HD z prędkością generowania trzykrotnie większą niż w V8, przy koszcie trzykrotnie niższym.
V8.1 stanowi znaczące dopracowanie silnika V8: rozdzielczość przechodzi bezpośrednio do 2K bez późniejszego upscalingu, co poprawia wierność drobnych detali i ogranicza typowe artefakty etapów powiększania. Połączenie szybkości, ceny i rozdzielczości pozycjonuje V8.1 jako najbardziej dostępną wersję gamy V8.
Luma × Wonder Project — studio Innovative Dreams, wspierane przez AWS
16 kwietnia — Luma AI i Wonder Project (studio produkcyjne faith & values, partner Prime Video) wspólnie ogłaszają uruchomienie Innovative Dreams — nowej firmy produkcji filmowej, laboratorium R&D oraz przedsiębiorstwa VFX, wspieranych i finansowanych przez Amazon Web Services (AWS).
Innovative Dreams jest przedstawiane jako pierwsze studio, które wdraża na dużą skalę Realtime Hybrid Filmmaking — podejście łączące capture of performance, produkcję wirtualną i generatywną AI (w szczególności Luma Agents) na wszystkich etapach produkcji: koncepcji, prewizualizacji, zdjęć i postprodukcji.
| Aspekt | Szczegół |
|---|---|
| CEO | Jon Erwin (założyciel Wonder Project) |
| CTO / Luma | Amit Jain (CEO Luma AI) |
| Infrastruktura | AWS cloud + AI do R&D i narzędzi produkcji wirtualnej |
| Technologia | Luma Agents + Realtime Hybrid Filmmaking |
| Lokalizacja | MBS Media Campus, Manhattan Beach, Kalifornia |
| Pierwszy projekt | ”The Old Stories: Moses” (3 odcinki) z Benem Kingsleyem i O-T Fagbenle, dla Prime Video |
Podejście “Realtime Hybrid Filmmaking” eliminuje tradycyjne opóźnienia między zdjęciami, renderowaniem i montażem. Aktorzy mogą reagować na cyfrowe środowiska w czasie rzeczywistym, co skraca dystans między pomysłem twórczym a finalnym pikselem, zachowując jednocześnie ludzką interpretację. Innovative Dreams udostępnia też swoje narzędzia innym studiom Hollywood.
🔗 Ogłoszenie Luma 🔗 Tweet @LumaLabsAI
MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent bez konfiguracji
16 kwietnia — MiniMax ogłasza pogłębione partnerstwo z NousResearch w celu integracji modelu M2.7 w harness Hermes Agent. Ogłoszenie wprowadza MaxHermes — zarządzaną wersję cloud Hermes Agent dostępną bezpośrednio z @MiniMaxAgent, bez konfiguracji w terminalu ani instalacji lokalnej.
Współewolucja M2.7 × Hermes Agent ma na celu agentów wyższej klasy: pętla samodoskonalenia (self-improving loop) Hermes wyciąga maksimum z modelu M2.7 w zadaniach agentowych. Użytkownicy uruchamiający Hermes lokalnie mogą również podłączyć swojego agenta do MaxHermes, aby skorzystać z zarządzanej infrastruktury cloud.
Gemini Skills w Chrome — twoje prompty jednym kliknięciem
14 kwietnia — Google Chrome integruje nową funkcję o nazwie “Skills” dla Gemini w przeglądarce. Możesz teraz zapisywać swoje najbardziej przydatne prompty i uruchamiać je ponownie jednym kliknięciem, bez przepisywania. Dostępna jest także biblioteka gotowych promptów, aby szybko zacząć.
Funkcję ogłoszono 14 kwietnia i potwierdzono jako dostępną 15 kwietnia 2026, a następnie przywołano w tygodniowym podsumowaniu @GoogleAI z 17 kwietnia.
🔗 Tweet @googlechrome (14 kwi.) 🔗 Tweet @googlechrome (15 kwi.)
Gemini API — przedpłata (Prepay Billing) w Google AI Studio
15 kwietnia — Google AI Studio wprowadza “Prepay Billing” dla API Gemini. Deweloperzy mogą teraz kupować kredyty z góry i zużywać je w miarę potrzeb, eliminując niespodzianki z rozliczeniem pod koniec miesiąca.
Automatyczne doładowanie jest dostępne, gdy saldo jest niskie. Funkcja jest zgodna z Spend Caps (wprowadzonymi wcześniej) oraz Usage Tiers. Jest dostępna w Stanach Zjednoczonych dla nowych kont rozliczeniowych Google Cloud, a globalne wdrożenie nastąpi w ciągu najbliższych tygodni. Ustalone konta z wysokimi poziomami użycia będą mogły przejść na postpaid.
Kimi Prefill-as-a-Service — inferencja cross-datacenter
18 kwietnia — Moonshot AI (Kimi) publikuje przełom techniczny w infrastrukturze inferencji: Prefill-as-a-Service (PraaS). Architektura przesuwa dezagregację Prefill/Decode (prefill/decode disaggregation) poza pojedynczy klaster, w kierunku architektury cross-datacenter z heterogenicznym sprzętem.
Ogłoszone wyniki to 1,54× większy throughput oraz -64% w P90 TTFT (czas do pierwszego token). Kluczową technologią jest hybrydowy model Kimi Linear, który zmniejsza koszt transferu cache KV (key-value cache) między datacenter. To nie jest launch dla szerokiej publiczności, lecz publikacja badawcza o rozproszonej infrastrukturze inferencji, z bezpośrednim wpływem na obniżenie kosztu na token dla Kimi.
🔗 Tweet @Kimi_Moonshot 🔗 Artykuł arXiv
Claude Code v2.1.114 i Runway Seedance 2.0 API
18 kwietnia — Claude Code v2.1.114 naprawia awarię występującą, gdy członek zespołu agentów prosił o dostęp do narzędzia przez okno dialogowe uprawnień.
16 kwietnia — Runway udostępnia Seedance 2.0 przez API Runway dla deweloperów. Po launchu webowym (9 kwietnia), renderowaniu 1080p (16 kwietnia) i aplikacji iOS (17 kwietnia), dostęp API domyka wielokanałowe wdrożenie modelu. Dokumentacja jest dostępna na dev.runwayml.com.
🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API
Co to oznacza
Jednoczesne uruchomienie APIs STT i TTS od Grok to najbardziej agresywny ruch cenowy tygodnia. Tnąc ceny od 2 do 10 razy względem ElevenLabs, AssemblyAI i OpenAI TTS, xAI jasno sygnalizuje, że audio AI staje się towarem — co przyspieszy adopcję wśród niezależnych deweloperów i startupów, ale skompresuje marże uznanych graczy. Połączenie jednego z najniższych wskaźników błędu rozpoznawania na rynku, bezkonkurencyjnych cen i ekspresyjnych znaczników sprawia, że te APIs są natychmiast gotowe do użycia w produkcji.
Claude for Word i Gemini Skills w Chrome odzwierciedlają dwie różne strategie: Anthropic integruje swój model z istniejącymi biurowymi narzędziami produktywności, tam gdzie użytkownicy już spędzają swoje dni; Google z kolei wzbogaca swoją przeglądarkę, aby uczynić Gemini codziennie nieodzownym. Oba podejścia mają na celu zmniejszenie tarcia przy dostępie do modelu.
Luma × Wonder Project × AWS ilustruje wyłanianie się nowego modelu hollywoodzkiego studia: generatywna AI zintegrowana na każdym etapie produkcji, infrastruktura AWS cloud i ambicja “przeniesienia z powrotem do Los Angeles” produkcji, które wcześniej wyjeżdżały za granicę. Ogłoszenie ma znaczenie zarówno symboliczne, jak i techniczne — potwierdza Realtime Hybrid Filmmaking jako możliwy do uprzemysłowienia pipeline, a nie tylko koncepcję.
Źródła
- Ogłoszenie xAI — Grok STT i TTS APIs
- Tweet @xai — Grok STT i TTS
- Tweet @claudeai — Claude for Word
- claude.com/claude-for-word
- Ogłoszenie Luma AI — Innovative Dreams
- Tweet @LumaLabsAI — Innovative Dreams
- Tweet @MiniMax_AI — M2.7 × NousResearch
- Tweet @googlechrome — Gemini Skills (14 kwi.)
- Tweet @googlechrome — Gemini Skills (15 kwi.)
- Tweet @GoogleAIStudio — Prepay Billing
- Tweet @Kimi_Moonshot — PraaS
- Artykuł arXiv — Kimi PraaS
- CHANGELOG Claude Code — v2.1.114
- Tweet @runwayml — Seedance 2.0 API
Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5.4-mini. Aby uzyskać więcej informacji o procesie tłumaczenia, odwiedź https://gitlab.com/jls42/ai-powered-markdown-translator