بحث

Grok STT وTTS APIs بأسعار منخفضة، Claude for Word، Midjourney V8.1

Grok STT وTTS APIs بأسعار منخفضة، Claude for Word، Midjourney V8.1

في 18 أبريل، تطلق xAI واجهتين Audio — التعرف على الكلام (Speech to Text) والتوليد الصوتي (Text to Speech) — بأسعار تتفوق على جميع المنافسين الراسخين. تجعل Anthropic Claude متاحًا مباشرة داخل Microsoft Word لمشتركي Pro وMax وTeam وEnterprise. وتطرح Midjourney V8.1 مع إخراج 2K أصلي، وبسرعة أكبر بثلاث مرات وتكلفة أقل بثلاث مرات من V8. وفي الوقت نفسه: تفتتح Luma وWonder Project استوديو Innovative Dreams المدعوم من AWS، وتتوحد MiniMax مع NousResearch لإطلاق MaxHermes، وتنشر Kimi معمارية استدلال cross-datacenter، وتُثري Google Chrome بـ Gemini Skills.


Grok STT وTTS — أرخص واجهات Audio في السوق

17 أبريل — تطلق xAI في الوقت نفسه واجهتين Audio مستقلتين: واجهة التعرف على الكلام (Speech to Text، STT) وواجهة التوليد الصوتي (Text to Speech، TTS). التموضع السعري مباشر: تعرض الواجهتان أقل الأسعار في كل فئة من فئتيهما.

API STT (التعرف على الكلام)

تقدم API STT من Grok وضعين: batch REST وstreaming WebSocket. الأسعار هي $0.10/ساعة (batch) و**$0.20/ساعة** (streaming)، مقابل $0.22 و$0.39 لدى ElevenLabs، و$0.21 و$0.45 لدى AssemblyAI، و$0.31 و$0.55 لدى Deepgram.

المنافسBatch (REST)Streaming (WebSocket)
Grok$0.10/h$0.20/h
ElevenLabs$0.22/h$0.39/h
AssemblyAI$0.21/h$0.45/h
Deepgram$0.31/h$0.55/h

من ناحية الجودة، يبلغ معدل الخطأ في الكلمات (Word Error Rate) الإجمالي لدى Grok STT 6.9%، مقابل 9.0% لدى ElevenLabs، و11.0% لدى Deepgram، و12.9% لدى AssemblyAI. تغطي Grok STT أكثر من 25 لغة مع طوابع زمنية على مستوى الكلمة، وتفريق المتحدثين المتعددين (speaker diarization)، ودعم متعدد القنوات، والتطبيع العكسي للنص (تحويل الأرقام والتواريخ من الكلام).

API TTS (التوليد الصوتي)

تُسعَّر API TTS من Grok عند $4.20 لكل مليون حرف، بينما تفرض OpenAI $30، وInWorld $40، وCartesia $46.70، وElevenLabs $50. تدعم الواجهة REST وstreaming WebSocket. وتقدم وسومًا تعبيرية: [laugh]، [sigh]، [whisper]، <emphasis>، <slow>، <pause> — للتحكم في نبرة الصوت وإيقاع التوليد.

المنافسالسعر / مليون حرف
Grok$4.20
OpenAI$30.00
InWorld$40.00
Cartesia$46.70
ElevenLabs$50.00

xAI annonce the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇸🇦 تعلن xAI عن إطلاق واجهات Grok للتعرف على الكلام والتوليد الصوتي. يحقق Grok STT أدنى معدل خطأ في الكلمات وأدنى سعر في العالم. ويقدم Grok TTS الصوت الأكثر تعبيرًا وأدنى سعر في العالم.@xai على X

🔗 إعلان xAI 🔗 تغريدة @xai


Claude for Word — إضافة Microsoft في نسخة beta

17 أبريل — تطلق Anthropic Claude for Word في نسخة beta لمشتركي Pro وMax وTeam وEnterprise. تندمج الإضافة مباشرة داخل واجهة Microsoft Word — من دون نافذة منفصلة — وتعمل على مستوى المستند.

الميزةالوصف
Tracked changes أصليةتظهر جميع تعديلات Claude كتعديلات Word يمكن قبولها/رفضها
إدارة التعليقاتيقرأ Claude التعليقات، ويحرر النص المرتبط بها، ويرد في الخيط
الحفاظ على التنسيقيرث أنماط العناوين والترقيم والمصطلحات المحددة
Cross-contextيشارك السياق مع إضافات Excel وPowerPoint في محادثة واحدة
أمان المؤسساتتسجيل الدخول عبر حساب Claude أو مزود السحابة الحالي

الصيغ المدعومة هي .docx و.docm. يتم تثبيت الإضافة عبر Microsoft Marketplace تحت المعرف WA200010453.

🔗 claude.com/claude-for-word 🔗 تغريدة @claudeai


Midjourney V8.1 — إخراج 2K أصلي، أسرع 3×

14 أبريل — أطلقت Midjourney نسخة V8.1 من مولد الصور الخاص بها. يجلب هذا التحديث إخراج 2K HD أصلي مع سرعة توليد أعلى بثلاث مرات من V8، وبتكلفة أقل بثلاث مرات.

تُعد V8.1 تحسينًا مهمًا على محرك V8: تنتقل الدقة مباشرة إلى 2K من دون upscaling لاحق، مما يحسن دقة التفاصيل الدقيقة ويقلل الآثار المعتادة لمراحل التكبير. ويضع الجمع بين السرعة/السعر/الدقة V8.1 بوصفها النسخة الأكثر إتاحة ضمن سلسلة V8.


Luma × Wonder Project — استوديو Innovative Dreams، بدعم AWS

16 أبريل — تعلن Luma AI وWonder Project (استوديو إنتاج faith & values، وشريك Prime Video) بشكل مشترك عن إطلاق Innovative Dreams — شركة إنتاج سينمائي جديدة، ومختبر R&D، وشركة VFX، مدعومة وممولة من Amazon Web Services (AWS).

يُقدَّم Innovative Dreams بوصفه أول استوديو ينشر على نطاق واسع Realtime Hybrid Filmmaking — وهو نهج يمزج بين capture of performance، والإنتاج الافتراضي، والـIA التوليدية (ولا سيما Luma Agents) في جميع مراحل الإنتاج: الفكرة، ما قبل التصور، التصوير، وما بعد الإنتاج.

الجانبالتفاصيل
الرئيس التنفيذيJon Erwin (مؤسس Wonder Project)
CTO / LumaAmit Jain (الرئيس التنفيذي لـ Luma AI)
البنية التحتيةAWS cloud + IA لأغراض R&D وأدوات الإنتاج الافتراضي
التكنولوجياLuma Agents + Realtime Hybrid Filmmaking
الموقعMBS Media Campus، Manhattan Beach، كاليفورنيا
أول مشروع”The Old Stories: Moses” (3 حلقات) مع Ben Kingsley وO-T Fagbenle، لصالح Prime Video

يُلغي نهج “Realtime Hybrid Filmmaking” التأخيرات التقليدية بين التصوير، والإخراج، والمونتاج. ويمكن للممثلين التفاعل مع البيئات الرقمية في الوقت الحقيقي، مما يقصر المسافة بين الفكرة الإبداعية والبكسل النهائي مع الحفاظ على الأداء البشري. كما تقدم Innovative Dreams أدواتها لاستوديوهات Hollywood أخرى.

🔗 إعلان Luma 🔗 تغريدة @LumaLabsAI


MiniMax M2.7 × NousResearch — MaxHermes، Hermes Agent من دون إعداد

16 أبريل — تعلن MiniMax عن شراكة معمقة مع NousResearch لدمج نموذج M2.7 ضمن harness Hermes Agent. ويقدم الإعلان MaxHermes — نسخة سحابية مُدارة من Hermes Agent يمكن الوصول إليها مباشرة من خلال @MiniMaxAgent، من دون إعداد في terminal أو تثبيت محلي.

يستهدف التطور المشترك M2.7 × Hermes Agent وكلاء من الفئة العليا: تستفيد حلقة التحسين الذاتي (self-improving loop) في Hermes بأقصى قدر من نموذج M2.7 للمهام الوكيلة. ويمكن للمستخدمين الذين يشغّلون Hermes محليًا أيضًا ربط وكيلهم بـ MaxHermes للاستفادة من البنية السحابية المُدارة.

🔗 تغريدة @MiniMax_AI


Gemini Skills في Chrome — prompts الخاصة بك بنقرة واحدة

14 أبريل — يدمج Google Chrome ميزة جديدة تسمى “Skills” لـ Gemini داخل المتصفح. يمكنك الآن حفظ prompts الأكثر فائدة لديك وإعادة تشغيلها بنقرة واحدة فقط، من دون إعادة الكتابة. كما تتوفر مكتبة prompts جاهزة للبدء بسرعة.

تم الإعلان عن الميزة في 14 أبريل وتأكيد توفرها في 15 أبريل 2026، ثم أُدرجت مرة أخرى في الملخص الأسبوعي @GoogleAI بتاريخ 17 أبريل.

🔗 تغريدة @googlechrome (14 أبريل) 🔗 تغريدة @googlechrome (15 أبريل)


Gemini API — الدفع المسبق (Prepay Billing) في Google AI Studio

15 أبريل — يقدم Google AI Studio ميزة “Prepay Billing” لـ API Gemini. يمكن للمطورين الآن شراء credits مسبقًا واستهلاكها تدريجيًا، مما يلغي مفاجآت الفوترة في نهاية الشهر.

يتوفر الشحن التلقائي عندما يكون الرصيد منخفضًا. تتوافق الميزة مع Spend Caps (التي أُطلقت سابقًا) وUsage Tiers. وهي متاحة في الولايات المتحدة للحسابات الجديدة لفوترة Google Cloud، مع طرح عالمي خلال الأسابيع المقبلة. ويمكن للحسابات الراسخة ذات مستويات الاستخدام المرتفعة الانتقال إلى postpaid.

🔗 تغريدة @GoogleAIStudio


Kimi Prefill-as-a-Service — الاستدلال cross-datacenter

18 أبريل — تنشر Moonshot AI (Kimi) تقدمًا تقنيًا في بنية الاستدلال: Prefill-as-a-Service (PraaS). تدفع المعمارية تفكيك Prefill/Decode (prefill/decode disaggregation) إلى ما هو أبعد من cluster واحد، نحو معمارية cross-datacenter مع عتاد غير متجانس.

النتائج المعلنة: 1.54× من throughput إضافي و**-64% في P90 TTFT** (الوقت حتى أول token). التقنية الأساسية هي النموذج الهجين Kimi Linear، الذي يقلل تكلفة نقل cache KV (key-value cache) بين datacenters. هذا ليس إطلاقًا جماهيريًا بل نشر بحثي في البنية التحتية للاستدلال الموزع، مع أثر مباشر على خفض التكلفة لكل token في Kimi.

🔗 تغريدة @Kimi_Moonshot 🔗 ورقة arXiv


Claude Code v2.1.114 وRunway Seedance 2.0 API

18 أبريل — تُصلح Claude Code v2.1.114 مشكلة انهيار كانت تحدث عندما يطلب أحد أعضاء فريق من الوكلاء الوصول إلى أداة عبر مربع حوار الأذونات.

16 أبريل — تتيح Runway Seedance 2.0 عبر API Runway للمطورين. بعد الإطلاق على الويب (9 أبريل)، وإخراج 1080p (16 أبريل)، وتطبيق iOS (17 أبريل)، يكمل وصول API النشر متعدد القنوات للنموذج. تتوفر الوثائق على dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 تغريدة @runwayml — Seedance API


ماذا يعني ذلك

إن الإطلاق المتزامن لواجهتي STT وTTS من Grok هو الحركة السعرية الأكثر عدوانية هذا الأسبوع. وبخفض الأسعار من مرتين إلى 10 مرات مقارنة بـ ElevenLabs وAssemblyAI وOpenAI TTS، تشير xAI بوضوح إلى أن Audio IA يصبح سلعة — وهو ما سيُسرّع التبني لدى المطورين المستقلين والشركات الناشئة، لكنه سيضغط على هوامش اللاعبين الراسخين. كما أن الجمع بين أحد أدنى معدلات الخطأ في التعرف في السوق، والأسعار المنخفضة، والوسوم التعبيرية يجعل هذه الواجهات قابلة للاستخدام في الإنتاج فورًا.

تترجم Claude for Word وGemini Skills في Chrome استراتيجيتين مختلفتين: إذ تدمج Anthropic نموذجها داخل أدوات الإنتاجية المكتبية القائمة، حيث يقضي مستخدموها يومهم بالفعل؛ بينما تعمل Google على إثراء متصفحها لجعل Gemini حاضرًا في الاستخدام اليومي. وتهدف المقاربتان إلى تقليل الاحتكاك في الوصول إلى النموذج.

تُظهر Luma × Wonder Project × AWS بروز نموذج جديد لاستوديو Hollywood: IA توليدية مدمجة في كل مرحلة من مراحل الإنتاج، وبنية سحابية AWS، وطموح “توطين” الإنتاجات في Los Angeles بدل تحويلها إلى الخارج. يحمل الإعلان دلالة رمزية بقدر ما هو تقني — إذ يؤكد Realtime Hybrid Filmmaking بوصفه pipeline قابلاً للتصنيع، وليس مجرد مفهوم.


المصادر

تمت ترجمة هذا المستند من الإصدار fr إلى اللغة ar باستخدام النموذج gpt-5.4-mini. لمزيد من المعلومات حول عملية الترجمة، راجع https://gitlab.com/jls42/ai-powered-markdown-translator