بحث

إطلاق Claude Sonnet 4.6، وQwen3.5-397B بوزن مفتوح، وGoogle تطلق Lyria 3

إطلاق Claude Sonnet 4.6، وQwen3.5-397B بوزن مفتوح، وGoogle تطلق Lyria 3

تضرب Anthropic بقوة مع Claude Sonnet 4.6، وهو نموذج ينافس Opus في العديد من المهام بسعر Sonnet. بالتوازي، تنشر Qwen أول نموذج لها Qwen3.5 بوزن مفتوح (open-weight) مع 397 مليار معلمة، وتدمج Google نموذج Lyria 3 — نموذجها لتوليد الموسيقى — مباشرة في Gemini.


Claude Sonnet 4.6: أداء Opus بسعر Sonnet

17 فبراير — أطلقت Anthropic نموذج Claude Sonnet 4.6، والذي وُصف بأنه أكثر نماذج Sonnet قدرة حتى الآن. يمثل النموذج ترقية شاملة في البرمجة، واستخدام الكمبيوتر (computer use)، والاستنتاج ذي السياق الطويل، وتخطيط الوكلاء، والعمل الفكري، والتصميم. يتضمن نافذة سياق تبلغ 1 مليون token في الإصدار التجريبي.

الموقع واضح: الأداء الذي كان يتطلب نموذج Opus أصبح الآن متاحًا بتعرفة Sonnet، أي 3 دولارات / 15 دولارًا لكل مليون token (دون تغيير مقارنة بـ Sonnet 4.5). يصبح Sonnet 4.6 النموذج الافتراضي في الخطط المجانية (Free) والمحترفة (Pro) في claude.ai و Claude Cowork.

المعايير (Benchmarks) وتعليقات المستخدمين

في Claude Code، فضل المختبرون Sonnet 4.6 على Sonnet 4.5 في حوالي 70% من الوقت، مشيرين إلى قراءة أفضل للسياق قبل تعديل الكود ودمج المنطق المشترك بدلاً من تكراره. والأكثر ملاحظة: فضل المستخدمون Sonnet 4.6 على Opus 4.5 (النموذج الرائد لشهر نوفمبر 2025) في 59% من الوقت، مشيرين إلى هندسة مفرطة أقل، و”كسل” أقل، واتباع أفضل للتعليمات.

BenchmarkScore
SWE-bench Verified80.2% (مع تعديل الـ prompt)
OSWorld (computer use)تقدم كبير خلال 16 شهرًا
OfficeQAيعادل Opus 4.6
Vending-Bench Arenaاستراتيجية ناشئة للاستثمار/التحول

يتقدم استخدام الكمبيوتر (computer use) بشكل ملحوظ: يحسن Sonnet 4.6 أيضًا مقاومة حقن الأوامر (prompt injections) مقارنة بـ Sonnet 4.5، ليصل إلى مستوى مشابه لـ Opus 4.6.

تحديثات المنتج ذات الصلة

يرافق الإعلان انتقال العديد من الميزات إلى التوفر العام (GA) على Claude API: تنفيذ الكود، والذاكرة، واستدعاء الأدوات برمجياً، والبحث عن الأدوات، وأمثلة استخدام الأدوات. يدمج البحث في الويب وأدوات الجلب (fetch) الآن تصفية ديناميكية — يكتب Claude وينفذ تلقائيًا كودًا لتصفية نتائج البحث، مع الاحتفاظ فقط بالمحتوى ذي الصلة في السياق.

🔗 بحث ويب محسن مع تصفية ديناميكية

بالنسبة لمستخدمي Claude in Excel، تدعم الإضافة الآن موصلات MCP (S&P Global و LSEG و Daloopa و PitchBook و Moody’s و FactSet)، وهي متاحة في خطط Pro و Max و Team و Enterprise.

🔗 الإعلان الرسمي


تقيس Anthropic استقلالية وكلاء الذكاء الاصطناعي في الظروف الواقعية

18 فبراير — نشرت Anthropic دراسة تحلل ملايين التفاعلات بين الإنسان والوكيل عبر Claude Code وواجهة برمجة التطبيقات (API) العامة، بهدف فهم كيفية إدارة البشر لاستقلالية الوكيل في الممارسة العملية.

النتائج الرئيسية

المقياسالقيمة
المدة القصوى للاستقلالية (المئين 99.9)~45 دقيقة (تضاعفت في 3 أشهر)
الموافقة التلقائية (المستخدمون الخبراء)40%+ (مقابل 20% للجدد)
حصة هندسة البرمجيات في حركة API~50%
إجراءات مع حواجز حماية80%
إجراءات مع إنسان في الحلقة (Human-in-the-loop)73%
إجراءات لا رجعة فيها0.8%

ملاحظة غير بديهية: يقوم المستخدمون الخبراء بزيادة معدل الموافقة التلقائية ومعدل المقاطعة في وقت واحد. ينتقلون من الإشراف إجراءً بإجراء إلى المراقبة النشطة مع التدخل المستهدف. علاوة على ذلك، يتوقف Claude لطلب توضيحات بشكل متكرر أكثر مما يقاطعه البشر، خاصة في المهام المعقدة.

تخلص الدراسة إلى وجود فجوة كبيرة بين القدرة والاستخدام: الاستقلالية التي تستطيع النماذج إدارتها تتجاوز بكثير تلك الممنوحة لها في الممارسة العملية — وهي ظاهرة يصفها الباحثون بأنها “فائض من الاستقلالية غير المنشورة” (surplus of undeployed autonomy).

🔗 الدراسة الكاملة


Anthropic: شراكات مع رواندا و Infosys

17 فبراير — بالتزامن مع إطلاق Sonnet 4.6، وقعت Anthropic مذكرة تفاهم مع حكومة رواندا لنشر Claude في قطاعات الصحة والتعليم والإدارة العامة. تشمل الشراكة، التي تقودها وزارة تكنولوجيا المعلومات والاتصالات والابتكار، تدريب موظفي الخدمة المدنية ونشر رفيق تعليمي بالذكاء الاصطناعي في ثماني دول أفريقية.

أعلنت Anthropic أيضًا عن تعاون مع Infosys لبناء وكلاء ذكاء اصطناعي للاتصالات والصناعات الخاضعة للتنظيم الأخرى.

🔗 شراكة رواندا


Qwen3.5-397B-A17B: أول وزن مفتوح من سلسلة 3.5

16 فبراير — نشرت Alibaba Qwen نموذج Qwen3.5-397B-A17B، وهو أول نموذج بوزن مفتوح (open-weight) من سلسلة Qwen3.5. يمثل هذا تقدمًا كبيرًا بفضل بنية هجينة تجمع بين الانتباه الخطي (linear attention) ومزيج الخبراء المتناثر (Mixture-of-Experts - MoE).

الميزةالتفاصيل
إجمالي المعلمات397B (بنية MoE هجينة)
البنيةانتباه خطي هجين + MoE متناثر
الإنتاجية (Throughput)8.6x إلى 19.0x أعلى من Qwen3-Max
اللغات201 لغة ولهجة
الترخيصApache 2.0
التدريبتعلم معزز واسع النطاق
التخصصمتعدد الوسائط أصلي (Native Multimodal)، وكلاء حقيقيون

النموذج متاح فورًا على Hugging Face و ModelScope و Alibaba Cloud Model Studio وعبر Qwen Code. مع دعم 201 لغة وترخيص Apache 2.0، يعد أحد أكثر نماذج الوزن المفتوح طموحًا حاليًا من حيث التغطية اللغوية وإنتاجية الاستنتاج.

🔗 تغريدة @Alibaba_Qwen


Google Lyria 3: توليد الموسيقى يصل إلى Gemini

18 فبراير — قدمت Google و DeepMind نموذج Lyria 3، وهو نموذج لتوليد الموسيقى بالذكاء الاصطناعي مدمج مباشرة في تطبيق Gemini. يمكن للمستخدمين إنشاء مقاطع موسيقية مدتها 30 ثانية من نصوص أو صور أو مقاطع فيديو، مع توليد كلمات مخصصة.

الميزةالتفاصيل
المدخلاتنص، صور، فيديو
المخرجاتمقاطع صوتية مدتها 30 ثانية
التخصيصأنماط موسيقية متنوعة، كلمات مولدة
التوفرإصدار تجريبي في Gemini (+18)

يُظهر Lyria 3 مرونة ملحوظة في مجموعات الآلات والأنواع، مما يسمح بإبداعات تتراوح من النغمات القصيرة (jingle) إلى مؤلفات الـ lo-fi. يتم النشر العالمي تدريجياً.

🔗 تغريدة @GoogleAI


OpenAI EVMbench: معيار أمان للعقود الذكية

18 فبراير — أطلقت OpenAI و Paradigm معيار EVMbench، وهو benchmark يقيم قدرة وكلاء الذكاء الاصطناعي على اكتشاف وتصحيح واستغلال الثغرات الأمنية في العقود الذكية لـ Ethereum. يعتمد المعيار على 120 ثغرة أمنية منسقة من 40 عملية تدقيق (بشكل رئيسي مسابقات Code4rena).

الوضعالوصفGPT-5.3-CodexGPT-5 (قبل 6 أشهر)
Exploitتنفيذ هجمات الاستنزاف72.2%31.9%
Detectتدقيق واكتشاف الثغرات< تغطية كاملة-
Patchالتصحيح مع الحفاظ على الوظيفة< تغطية كاملة-

ملاحظة مثيرة للاهتمام: ينجح وكلاء الذكاء الاصطناعي بشكل أفضل في الاستغلال (هدف صريح) مقارنة بالكشف والتصحيح، حيث غالبًا ما يستسلمون بعد العثور على أول ثغرة. تعيد OpenAI تأكيد التزامها بتقديم 10 ملايين دولار في أرصدة API للأمن السيبراني الدفاعي.

🔗 إعلان EVMbench


تقرير GLM-5 الفني: Z.ai توثق نموذجها

18 فبراير — نشرت Z.ai التقرير الفني الكامل لـ GLM-5، مفصلة الابتكارات المعمارية للنموذج الذي تم إطلاقه في 11 فبراير (744 مليار معلمة، 40 مليار نشطة، ترخيص MIT).

ثلاثة ابتكارات رئيسية موثقة: الانتباه المتناثر الديناميكي (DSA) لتقليل تكاليف التدريب والاستنتاج، وبنية تحتية غير متزامنة للتعلم المعزز (RL) تفصل التوليد عن التدريب، وخوارزميات RL للوكلاء تسمح بتفاعلات معقدة وطويلة الأفق. التقرير متاح على arXiv.

🔗 تغريدة @Zai_org · 🔗 arXiv


Cohere Labs Tiny Aya: ذكاء اصطناعي متعدد اللغات مدمج للغاية

17 فبراير — قدمت Cohere Labs عائلة Tiny Aya، وهي عائلة من نماذج اللغة الصغيرة تدعم أكثر من 70 لغة بـ 3.35 مليار معلمة فقط. الهدف: جعل الذكاء الاصطناعي متعدد اللغات متاحًا في كل مكان، بما في ذلك الهواتف والعمل دون اتصال بالإنترنت (offline).

يستهدف Tiny Aya ثلاثة جماهير: الباحثين الذين يعملون بلغات غير الإنجليزية، والمطورين الذين يبنون للمجتمعات التي تفتقر إلى الخدمات الرقمية، والتطبيقات المدمجة التي تتطلب ترجمة موثوقة دون الاعتماد على السحابة. يتضمن النموذج قدرة ترجمة دون اتصال بالإنترنت، مما يحسن الخصوصية ويقلل الكمون.

🔗 تغريدة @cohere


توفر Runway Gen-4.5 عبر API + مهارة Claude Code

17 فبراير — فتحت Runway الوصول إلى Gen-4.5 عبر واجهة برمجة التطبيقات (API) الخاصة بها، مما يسمح للمطورين بدمج توليد الصور والفيديو والصوت مباشرة في مشاريعهم. يرافق الإعلان مهارة Claude Code مخصصة، متاحة على GitHub، والتي تسمح بتوليد محتوى Runway متعدد الوسائط دون مغادرة بيئة التطوير.

🔗 تغريدة @runwayml · 🔗 GitHub Skills


وكلاء Manus: وكيل شخصي بذاكرة طويلة الأمد

16 فبراير — أطلقت Manus قدرة Manus Agents، مما يسمح لكل مستخدم بامتلاك وكيل شخصي مباشرة في محادثات الدردشة. يجمع الوكيل بين الذاكرة طويلة الأمد (الاحتفاظ بالأسلوب والنبرة والتفضيلات)، وقدرات الإنشاء الكاملة (فيديو، شرائح، مواقع، صور)، والتكامل المباشر مع Gmail و Calendar و Notion.

🔗 تغريدة @ManusAI


ElevenAgents للدعم

17 فبراير — أطلقت ElevenLabs وكلاء ElevenAgents for Support، وهم وكلاء محادثة بالذكاء الاصطناعي لدعم العملاء. يعمل هؤلاء الوكلاء بالصوت والقنوات الرقمية بأكثر من 70 لغة، ويعتمدون على منصة الوكلاء الخاصة بـ ElevenLabs وأكثر من 4 ملايين عملية نشر في الإنتاج.

🔗 ElevenLabs Agents


NotebookLM x Zillow: مفكرة عقارية

18 فبراير — أطلقت NotebookLM بالشراكة مع Zillow مفكرة مميزة (Featured Notebook) مجانية لمشتري المنازل، حيث تجمع نصائح الخبراء حول التحضير المالي وتقييم السوق وإجراءات الشراء.

🔗 تغريدة @NotebookLM


ماذا يعني ذلك

يوضح هذا الأسبوع اتجاهين رئيسيين. الأول هو إضفاء الطابع الديمقراطي على الأداء الرائد: يجلب Sonnet 4.6 قدرات Opus بخمس السعر، بينما تجعل Qwen3.5 نموذجًا بـ 397 مليار معلمة متاحًا بموجب ترخيص Apache 2.0. الثاني هو توسع وكلاء الذكاء الاصطناعي في مجالات جديدة — تظهر دراسة Anthropic أن الجلسات المستقلة الأطول تضاعفت في ثلاثة أشهر، وتقوم جهات فاعلة مثل Manus و ElevenLabs و Runway ببناء وكلاء متخصصين (دردشة شخصية، دعم عملاء، إنشاء وسائط متعددة).

يظهر وصول توليد الموسيقى في Gemini مع Lyria 3 ومعيار EVMbench لأمان البلوكشين أيضًا أن الذكاء الاصطناعي التوليدي والذكاء الاصطناعي للأمان يواصلان تشكيل نفسيهما كمجالات قائمة بذاتها.


المصادر