Grok STT 및 TTS API를 파격가로, Claude for Word, Midjourney V8.1

4월 18일, xAI는 음성 인식(Speech to Text)과 음성 합성(Text to Speech)이라는 두 개의 오디오 API를 출시하며, 기존 경쟁사들을 모두 밑도는 가격을 내세웠습니다. Anthropic은 Claude를 Microsoft Word 안에서 Pro, Max, Team, Enterprise 구독자들이 직접 사용할 수 있게 했습니다. Midjourney는 V8.1을 배포하며 네이티브 2K 렌더링, V8보다 3배 빠르고 3배 저렴한 성능을 제공했습니다. 이와 함께 Luma와 Wonder Project는 AWS가 지원하는 Innovative Dreams 스튜디오를 열었고, MiniMax는 NousResearch와 MaxHermes를 위해 협력했으며, Kimi는 크로스 데이터센터 추론 아키텍처를 공개했고, Google은 Gemini Skills로 Chrome을 강화했습니다.

Grok STT 및 TTS — 시장에서 가장 저렴한 오디오 API

4월 17일 — xAI는 두 개의 독립형 오디오 API를 동시에 출시했습니다. 음성 인식(Speech to Text, STT) API와 음성 합성(Text to Speech, TTS) API입니다. 가격 전략은 정면승부입니다. 두 API 모두 각 세그먼트에서 가장 낮은 가격을 제시합니다.

STT API(음성 인식)

Grok의 STT API는 배치 REST와 스트리밍 WebSocket 두 가지 모드를 제공합니다. 가격은 각각 $0.10/시간(배치)과 $0.20/시간(스트리밍)이며, ElevenLabs는 $0.22와 $0.39, AssemblyAI는 $0.21와 $0.45, Deepgram은 $0.31와 $0.55입니다.

경쟁사	배치(REST)	스트리밍(WebSocket)
Grok	$0.10/h	$0.20/h
ElevenLabs	$0.22/h	$0.39/h
AssemblyAI	$0.21/h	$0.45/h
Deepgram	$0.31/h	$0.55/h

품질 면에서 Grok STT의 전체 단어 오류율(Word Error Rate)은 **6.9%**로, ElevenLabs는 9.0%, Deepgram은 11.0%, AssemblyAI는 12.9%입니다. Grok STT는 25개 이상의 언어를 지원하며, 단어 단위 타임스탬프, 다중 화자 분리(speaker diarization), 멀티채널 지원, 그리고 역텍스트 정규화(음성에서 숫자와 날짜를 변환)를 제공합니다.

TTS API(음성 합성)

Grok의 TTS API는 백만 글자당 $4.20이며, OpenAI는 $30, InWorld는 $40, Cartesia는 $46.70, ElevenLabs는 $50을 청구합니다. 이 API는 REST와 스트리밍 WebSocket을 지원합니다. 또한 톤과 합성 리듬을 제어하기 위한 표현형 태그를 도입합니다: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause>.

경쟁사	백만 글자당 가격
Grok	$4.20
OpenAI	$30.00
InWorld	$40.00
Cartesia	$46.70
ElevenLabs	$50.00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇰🇷 xAI는 Grok 음성 인식 및 음성 합성 API 출시를 발표합니다. Grok STT는 세계에서 가장 낮은 단어 오류율과 가격을 제공합니다. Grok TTS는 세계에서 가장 표현력이 뛰어난 음성과 가장 낮은 가격을 제공합니다. — @xai on X

🔗 xAI 발표 🔗 @xai 트윗

Claude for Word — Microsoft 확장 기능 베타 출시

4월 17일 — Anthropic이 Pro, Max, Team, Enterprise 구독자를 위한 Claude for Word 베타를 출시했습니다. 이 확장 기능은 별도 창 없이 Microsoft Word 인터페이스에 직접 통합되며, 문서 단위로 작동합니다.

기능	설명
네이티브 변경 내용 추적	Claude의 모든 변경 사항이 Word에서 수락/거부 가능한 수정으로 표시됨
댓글 관리	Claude가 댓글을 읽고, 앵커된 텍스트를 편집하며, 스레드에 답변함
서식 보존	제목 스타일, 번호 매기기, 정의된 용어를 그대로 유지
Cross-context	동일한 대화에서 Excel 및 PowerPoint 추가 기능과 문맥을 공유
기업 보안	Claude 계정 또는 기존 클라우드 제공업체 계정으로 로그인

지원 형식은 .docx 및 .docm입니다. 이 확장 기능은 Microsoft Marketplace에서 식별자 WA200010453로 설치할 수 있습니다.

🔗 claude.com/claude-for-word 🔗 @claudeai 트윗

Midjourney V8.1 — 네이티브 2K 렌더링, 3배 더 빠름

4월 14일 — Midjourney가 이미지 생성기의 V8.1 버전을 공개했습니다. 이번 업데이트는 네이티브 2K HD 렌더링을 제공하며, 생성 속도는 V8보다 3배 빠르고 비용은 3배 저렴합니다.

V8.1은 V8 엔진의 중요한 개선판입니다. 해상도가 후처리 업스케일링 없이 바로 2K로 올라가며, 이로 인해 미세한 디테일의 충실도가 향상되고 일반적인 확대 단계에서 생기던 아티팩트가 줄어듭니다. 속도/가격/해상도의 조합은 V8.1을 V8 제품군에서 가장 접근하기 쉬운 버전으로 만듭니다.

Luma × Wonder Project — AWS가 지원하는 Innovative Dreams 스튜디오

4월 16일 — Luma AI와 Wonder Project(faith & values 제작 스튜디오이자 Prime Video 파트너)가 함께 Innovative Dreams의 출범을 발표했습니다. 이는 **Amazon Web Services(AWS)**의 지원과 자금을 받는 새로운 영화 제작사, R&D 랩, VFX 기업입니다.

Innovative Dreams는 Realtime Hybrid Filmmaking을 대규모로 도입하는 첫 스튜디오로 소개됩니다. 이는 퍼포먼스 캡처, 가상 제작, 생성형 AI(특히 Luma Agents)를 기획, 프리비주얼라이제이션, 촬영, 후반 제작 전 단계에 걸쳐 결합하는 접근 방식입니다.

항목	세부 내용
CEO	Jon Erwin (Wonder Project 창립자)
CTO / Luma	Amit Jain (Luma AI CEO)
인프라	AWS 클라우드 + R&D 및 가상 제작 도구를 위한 AI
기술	Luma Agents + Realtime Hybrid Filmmaking
위치	캘리포니아 맨해튼 비치, MBS Media Campus
첫 프로젝트	”The Old Stories: Moses” (3화) — Ben Kingsley와 O-T Fagbenle 출연, Prime Video용

“Realtime Hybrid Filmmaking” 접근법은 촬영, 렌더링, 편집 사이의 전통적인 지연을 없앱니다. 배우들은 실시간으로 디지털 환경에 반응할 수 있어, 창의적 아이디어와 최종 픽셀 사이의 거리를 줄이면서도 인간의 퍼포먼스는 유지합니다. Innovative Dreams는 또한 다른 할리우드 스튜디오에도 자사 도구를 제공합니다.

🔗 Luma 발표 🔗 @LumaLabsAI 트윗

MiniMax M2.7 × NousResearch — 설정 없는 Hermes Agent MaxHermes

4월 16일 — MiniMax는 NousResearch와의 심화 협력을 발표하며, M2.7 모델을 Hermes Agent harness에 통합합니다. 이번 발표는 MaxHermes를 소개합니다. 이는 터미널 설정이나 로컬 설치 없이 @MiniMaxAgent에서 바로 접근할 수 있는 Hermes Agent의 관리형 클라우드 버전입니다.

M2.7 × Hermes Agent의 공동 진화는 상위급 에이전트를 목표로 합니다. Hermes의 자기개선 루프(self-improving loop)는 에이전트 작업에 맞춰 M2.7 모델의 장점을 최대한 끌어냅니다. 로컬에서 Hermes를 실행하는 사용자도 자신의 에이전트를 MaxHermes에 연결해 관리형 클라우드 인프라의 혜택을 받을 수 있습니다.

🔗 @MiniMax_AI 트윗

Chrome의 Gemini Skills — 한 번의 클릭으로 프롬프트 실행

4월 14일 — Google Chrome이 브라우저 안에 Gemini를 위한 “Skills”라는 새로운 기능을 통합했습니다. 이제 가장 유용한 프롬프트를 저장해 두고 다시 입력할 필요 없이 한 번의 클릭으로 실행할 수 있습니다. 빠른 시작을 위한 미리 정의된 프롬프트 라이브러리도 제공됩니다.

이 기능은 4월 14일에 발표되었고 2026년 4월 15일에 사용 가능하다고 확인되었으며, 이후 4월 17일 @GoogleAI의 주간 요약에서도 다시 언급되었습니다.

🔗 @googlechrome 트윗(4월 14일) 🔗 @googlechrome 트윗(4월 15일)

Gemini API — Google AI Studio의 선결제(Prepay Billing)

4월 15일 — Google AI Studio가 Gemini API에 “Prepay Billing”을 도입했습니다. 이제 개발자는 크레딧을 미리 구매해 사용량에 따라 소진할 수 있어, 월말 청구서의 예상치 못한 금액을 줄일 수 있습니다.

잔액이 적을 때 자동 충전이 가능합니다. 이 기능은 이전에 출시된 Spend Caps 및 Usage Tiers와 호환됩니다. 미국에서는 새로운 Google Cloud 결제 계정에 제공되며, 몇 주 내로 전 세계에 배포될 예정입니다. 높은 사용 등급의 기존 계정은 후불제로 전환할 수 있습니다.

🔗 @GoogleAIStudio 트윗

Kimi Prefill-as-a-Service — 크로스 데이터센터 추론

4월 18일 — Moonshot AI(Kimi)가 추론 인프라에서의 기술적 진전을 공개했습니다. 바로 Prefill-as-a-Service(PraaS)입니다. 이 아키텍처는 Prefill/Decode 분리(prefill/decode disaggregation)를 단일 클러스터를 넘어 이기종 하드웨어를 갖춘 크로스 데이터센터 아키텍처로 확장합니다.

공개된 결과는 처리량(throughput) 1.54배 증가와 P90 TTFT 64% 감소(첫 token까지의 시간)입니다. 핵심 기술은 하이브리드 모델 Kimi Linear로, 데이터센터 간 KV 캐시(key-value cache) 전송 비용을 줄입니다. 이는 일반 소비자용 출시가 아니라 분산 추론 인프라에 대한 연구 공개이며, Kimi의 token당 비용 절감에 직접적인 영향을 줍니다.

🔗 @Kimi_Moonshot 트윗 🔗 arXiv 논문

Claude Code v2.1.114 및 Runway Seedance 2.0 API

4월 18일 — Claude Code v2.1.114는 에이전트 팀의 한 멤버가 권한 대화상자를 통해 도구 접근을 요청할 때 발생하던 충돌을 수정했습니다.

4월 16일 — Runway는 개발자를 위해 Seedance 2.0을 Runway API를 통해 사용할 수 있게 했습니다. 웹 출시(4월 9일), 1080p 렌더링(4월 16일), iOS 앱(4월 17일)에 이어, API 접근이 모델의 멀티채널 배포를 완성합니다. 문서는 dev.runwayml.com에서 확인할 수 있습니다.

🔗 Claude Code CHANGELOG 🔗 @runwayml 트윗 — Seedance API

의미

Grok의 STT와 TTS API 동시 출시는 이번 주 가장 공격적인 가격 경쟁 움직임입니다. ElevenLabs, AssemblyAI, OpenAI TTS 대비 2배에서 10배까지 가격을 낮춤으로써, xAI는 AI 오디오가 하나의 범용 서비스가 되어가고 있음을 분명히 신호합니다. 이는 독립 개발자와 스타트업의 채택을 가속하는 동시에 기존 업체들의 마진을 압박할 것입니다. 시장 최저 수준의 인식 오류율, 파격적인 가격, 표현형 태그의 조합은 이 API들을 즉시 프로덕션에 투입 가능하게 만듭니다.

Claude for Word와 Chrome의 Gemini Skills는 두 가지 다른 전략을 보여줍니다. Anthropic은 사용자가 이미 하루를 보내고 있는 기존 오피스 생산성 도구 안에 자사 모델을 통합합니다. 반면 Google은 브라우저를 강화해 Gemini를 일상에서 빼놓을 수 없는 존재로 만듭니다. 두 접근법 모두 모델 접근의 마찰을 줄이려는 시도입니다.

Luma × Wonder Project × AWS는 새로운 할리우드 스튜디오 모델의 등장을 보여줍니다. 생성형 AI가 제작의 모든 단계에 통합되고, AWS 클라우드 인프라가 이를 뒷받침하며, 외주 제작으로 빠지던 작품들을 로스앤젤레스 안에서 “현지화”하려는 야망이 담겨 있습니다. 이 발표는 상징적이면서도 기술적입니다. Realtime Hybrid Filmmaking이 단순한 개념이 아니라 산업화 가능한 파이프라인임을 입증합니다.

출처

이 문서는 gpt-5.4-mini 모델을 사용하여 fr 버전에서 ko 언어로 번역되었습니다. 번역 프로세스에 대한 자세한 내용은 https://gitlab.com/jls42/ai-powered-markdown-translator를 참조하십시오.