تطلق Z.ai نموذج GLM-5، نموذجها الرائد الجديد مفتوح المصدر بمعلمات تبلغ 744 ملياراً تحت رخصة MIT، والذي يصعد إلى المرتبة الأولى بين النماذج مفتوحة المصدر في مهام البرمجة والوكلاء. تنشر Anthropic تقريراً عن مخاطر التخريب ASL-4 لنموذج Opus 4.6، وتثري OpenAI واجهة برمجة التطبيقات الخاصة بها ببدائيات الوكلاء، وتكشف Kimi عن نظام مكون من 100 وكيل فرعي متوازٍ. على جانب النظام البيئي، تجمع Runway مبلغ 315 مليون دولار وتطلق ElevenLabs وضعاً تعبيرياً لوكلائها الصوتيين.
Z.ai تطلق GLM-5: معلمات 744B، مفتوح المصدر تحت رخصة MIT
11 فبراير — تطلق Z.ai (Zhipu AI) نموذج GLM-5، نموذجها الحدودي الجديد المصمم لهندسة الأنظمة المعقدة ومهام الوكلاء طويلة الأمد. مقارنةً بنموذج GLM-4.5، ينمو النموذج من 355 مليار معلمة (32 مليار نشطة) إلى 744 مليار معلمة (40 مليار نشطة)، مع زيادة بيانات التدريب المسبق من 23 تريليون إلى 28.5 تريليون رمز مميز (token).
يدمج GLM-5 تقنية DeepSeek Sparse Attention (DSA) لتقليل تكاليف النشر مع الحفاظ على قدرة السياق الطويل، ويقدم “slime”، وهي بنية تحتية للتعلم المعزز غير المتزامن تعمل على تحسين الإنتاجية بعد التدريب.
| المعيار | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77.8% | 73.8% | 76.8% | 80.9% | 76.2% |
| HLE (text) | 30.5 | 24.8 | 31.5 | 28.4 | 37.2 |
| HLE w/ Tools | 50.4 | 42.8 | 51.8 | 43.4 | 45.8 |
| Terminal-Bench 2.0 | 56.2 | 41.0 | 50.8 | 59.3 | 54.2 |
| Vending Bench 2 | $4,432 | $2,377 | $1,198 | $4,967 | $5,478 |
يضع GLM-5 نفسه كأفضل نموذج مفتوح المصدر في الاستدلال والبرمجة ومهام الوكلاء، مما يسد الفجوة مع النماذج الحدودية الاحتكارية. في Vending Bench 2، وهو معيار يحاكي إدارة آلة بيع لمدة عام، ينهي GLM-5 برصيد 4,432 دولاراً، مقترباً من Claude Opus 4.5 (4,967 دولاراً).
بجانب الكود، يمكن لـ GLM-5 توليد ملفات .docx و .pdf و .xlsx مباشرة — مقترحات، تقارير مالية، جداول بيانات — يتم تسليمها جاهزة للاستخدام. تنشر Z.ai وضع الوكيل بمهارات مدمجة لإنشاء المستندات، مما يدعم التعاون متعدد الأدوار.
يتم نشر أوزان النموذج على Hugging Face تحت رخصة MIT. يتوافق GLM-5 مع Claude Code و OpenClaw، ومتاح على OpenRouter. النشر تدريجي، بدءاً من مشتركي Coding Plan Max.
🔗 مدونة GLM-5 التقنية 🔗 الإعلان على X
Anthropic تنشر أول تقرير عن مخاطر التخريب ASL-4
11 فبراير — تنشر Anthropic تقريراً عن مخاطر التخريب لنموذج Claude Opus 4.6، تحسباً لعتبة الأمان ASL-4 (AI Safety Level 4) للبحث والتطوير المستقل في مجال الذكاء الاصطناعي.
عند إصدار Claude Opus 4.5، التزمت Anthropic بكتابة تقارير عن مخاطر التخريب لكل نموذج حدودي جديد. بدلاً من التنقل في عتبات غامضة، اختارت الشركة احترام معيار الأمان ASL-4 الأعلى بشكل استباقي.
| العنصر | التفاصيل |
|---|---|
| النموذج الذي تم تقييمه | Claude Opus 4.6 |
| عتبة الأمان | ASL-4 (AI Safety Level 4) |
| المجال | البحث والتطوير المستقل في الذكاء الاصطناعي |
| التنسيق | تقرير PDF عام |
| سابقة | التزام تم التعهد به أثناء إطلاق Opus 4.5 |
هذه خطوة مهمة في شفافية أمان الذكاء الاصطناعي: Anthropic هي واحدة من أوائل المختبرات التي تنشر تقرير تخريب كهذا لنموذج قيد الإنتاج.
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇸🇦 عندما أطلقنا Claude Opus 4.5، كنا نعلم أن النماذج المستقبلية ستكون قريبة من عتبة AI Safety Level 4 الخاصة بنا للبحث والتطوير المستقل في الذكاء الاصطناعي. لذلك التزمنا بكتابة تقارير مخاطر التخريب للنماذج الحدودية المستقبلية. اليوم نفي بهذا الالتزام لنموذج Claude Opus 4.6. — @AnthropicAI على X
OpenAI: بدائيات وكلاء جديدة في واجهة برمجة تطبيقات Responses
10 فبراير — تقدم OpenAI ثلاث بدائيات جديدة في واجهة برمجة تطبيقات Responses لعمل الوكلاء طويل الأمد.
الضغط من جانب الخادم
يسمح بجلسات وكلاء لعدة ساعات دون الوصول إلى حدود السياق. تتم إدارة الضغط من جانب الخادم. تفيد Triple Whale، وهي مُختبر وصول مبكر، بأنها حققت 150 استدعاء أداة و 5 ملايين رمز مميز في جلسة واحدة دون فقدان الدقة.
حاويات مع شبكات
يمكن للحاويات التي تستضيفها OpenAI الآن الوصول إلى الإنترنت بطريقة خاضعة للرقابة. يحدد المسؤولون قائمة بيضاء للنطاقات في لوحة القيادة، ويجب أن تحدد الطلبات صراحة network_policy، ويمكن حقن أسرار النطاق دون كشف القيم الخام للنموذج.
المهارات في واجهة برمجة التطبيقات
دعم أصلي لمعيار مهارات الوكيل (Agent Skills) مع أول مهارة مبنية مسبقاً (جداول البيانات). المهارات عبارة عن حزم قابلة لإعادة الاستخدام ولها إصدارات يمكن تثبيتها في بيئات Shell المستضافة، وتقرر النماذج في وقت التشغيل ما إذا كانت ستستدعيها.
| البدائية | الوصف | الحالة |
|---|---|---|
| الضغط من جانب الخادم | جلسات لعدة ساعات دون حدود السياق | متاح |
| حاويات مع شبكات | وصول خاضع للرقابة للإنترنت للحاويات المستضافة | متاح |
| المهارات في واجهة برمجة التطبيقات | حزم قابلة لإعادة الاستخدام (أول مهارة: جداول البيانات) | متاح |
Kimi Agent Swarm: تنسيق 100 وكيل فرعي
10 فبراير — تكشف Kimi (Moonshot AI) عن Agent Swarm، وهي قدرة تنسيق متعددة الوكلاء تسمح بموازاة المهام المعقدة مع ما يصل إلى 100 وكيل فرعي متخصص.
يمكن للنظام تنفيذ أكثر من 1500 استدعاء أداة ويصل إلى سرعة أعلى بـ 4.5 مرة من عمليات التنفيذ المتسلسلة. تغطي حالات الاستخدام التوليد المتزامن لملفات متعددة (Word، Excel، PDF)، والتحليل المتوازي للمحتوى، والتوليد الإبداعي بأساليب متعددة بشكل متوازٍ. يحل Agent Swarm حداً هيكلياً لنماذج اللغة الكبيرة: تدهور الاستدلال أثناء المهام الطويلة التي تملأ السياق.
OpenAI Harness Engineering: صفر سطر من الكود اليدوي مع Codex
11 فبراير — تنشر OpenAI تجربة حول بناء منتج برمجيات داخلي بصفر سطر من الكود المكتوب يدوياً. لمدة 5 أشهر، استخدم فريق من 3 إلى 7 مهندسين Codex حصرياً لتوليد جميع الأكواد.
| المقياس | القيمة |
|---|---|
| أسطر الكود المولدة | ~1 مليون |
| طلبات السحب (PRs) | ~1,500 |
| PR لكل مهندس يومياً | 3.5 في المتوسط |
| المستخدمون الداخليون | عدة مئات |
| الوقت المقدر | 1/10 من الوقت اللازم يدوياً |
| جلسات Codex | تصل إلى 6+ ساعات |
يعيد نهج “Harness Engineering” تعريف دور المهندس: تصميم البيئات، وتحديد النية، وبناء حلقات ردود الفعل للوكلاء، بدلاً من كتابة الكود. تعمل الوثائق المهيكلة في المستودع كدليل (AGENTS.md كجدول محتويات)، والهندسة صارمة مع أدوات فحص واختبارات هيكلية يولدها Codex، وتقوم المهام المتكررة بمسح الانحرافات وفتح طلبات سحب لإعادة الهيكلة تلقائياً.
Runway تجمع 315 مليون دولار في الفئة E
10 فبراير — تعلن Runway عن جمع تبرعات بقيمة 315 مليون دولار في الفئة E، مما يرفع تقييمها إلى 5.3 مليار دولار. تقود الجولة General Atlantic، بمشاركة NVIDIA و Adobe Ventures و AMD Ventures و Fidelity و AllianceBernstein وغيرهم.
| التفاصيل | القيمة |
|---|---|
| المبلغ | 315 مليون دولار |
| الفئة | E |
| التقييم | 5.3 مليار دولار (مقابل 3.3 مليار دولار في الفئة D) |
| المستثمر الرئيسي | General Atlantic |
| الإجمالي الذي تم جمعه منذ 2018 | 860 مليون دولار |
ستُستخدم الأموال لتدريب الجيل القادم من “نماذج العالم” مسبقاً — وهي نماذج قادرة على محاكاة العالم المادي — ونشرها في منتجات وصناعات جديدة. يأتي هذا الإعلان بعد إطلاق Gen-4.5، أحدث نموذج لتوليد الفيديو من Runway.
🔗 الإعلان الرسمي 🔗 منشور Runway على X
Cowork متاح على Windows
10 فبراير — تطبيق سطح المكتب Claude Cowork للمهام متعددة الخطوات متاح الآن على Windows في معاينة بحثية مع تكافؤ كامل في الميزات مقارنة بنظام macOS.
| الميزة | الوصف |
|---|---|
| الوصول إلى الملفات | قراءة وكتابة الملفات المحلية |
| الإضافات | دعم لإضافات Cowork |
| موصلات MCP | التكامل مع خوادم MCP |
| تعليمات لكل مجلد | نمط Claude.md — تعليمات باللغة الطبيعية لكل مشروع |
يتوفر Cowork على Windows لجميع خطط Claude المدفوعة عبر claude.com/cowork.
ميزات مجانية في خطة Claude المجانية
11 فبراير — توسع Anthropic الميزات المتاحة في خطة Claude المجانية. أصبح إنشاء الملفات والموصلات والمهارات والضغط متاحاً الآن بدون اشتراك. يسمح الضغط لـ Claude بتلخيص السياق السابق تلقائياً بحيث يمكن للمحادثات الطويلة الاستمرار دون إعادة التشغيل.
وضع خطة Claude Code في Slack
11 فبراير — يحصل تكامل Claude Code في Slack على وضع الخطة (Plan Mode). عندما تعطي Claude مهمة كود في Slack، يمكنه الآن وضع خطة قبل التنفيذ، مما يسمح بالتحقق من النهج قبل التنفيذ.
| الميزة | الوصف |
|---|---|
| وضع الخطة | وضع خطة قبل التنفيذ |
| الكشف التلقائي | التوجيه الذكي بين الكود والدردشة |
| إنشاء PR | زر “Create PR” مباشرة من Slack |
| المتطلبات المسبقة | خطة Pro أو Max أو Team أو Enterprise + اتصال GitHub |
ElevenLabs تطلق الوضع التعبيري لوكلائها الصوتيين
10 فبراير — تكشف ElevenLabs عن الوضع التعبيري (Expressive Mode) لـ ElevenAgents، وهو تطور يجعل وكلاء الصوت بالذكاء الاصطناعي قادرين على تكييف نبرتهم وعاطفتهم وتأكيدهم في الوقت الفعلي.
يعتمد الوضع على Eleven v3 Conversational، وهو نموذج تخليق صوتي محسن للحوار في الوقت الفعلي، مقترناً بنظام جديد لتبادل الأدوار يقلل من الانقطاعات. يبقى السعر عند 0.08 دولار للدقيقة. بالتوازي، تعيد ElevenLabs هيكلة منصتها إلى ثلاث عائلات من المنتجات: ElevenAgents (وكلاء الصوت)، و ElevenCreative (أدوات إبداعية)، و ElevenAPI (منصة المطورين).
دمج Kimi K2.5 على Qoder
9 فبراير — تنشر Qoder (منصة ذكاء اصطناعي للمطورين) Kimi K2.5 كنموذج رئيسي لسوقها، مع درجة SWE-bench Verified تبلغ 76.8% وسعر مفضل (0.3x رصيد في فئة Efficient). سير العمل الموصى به: استخدام النماذج الثقيلة للتصميم والهندسة، ثم K2.5 للتنفيذ.
ماذا يعني هذا
تستمر البرمجيات مفتوحة المصدر في التقدم بسرعة نحو النماذج الحدودية. يقلل GLM-5 من Z.ai الفجوة مع Claude Opus 4.5 و GPT-5.2 في معايير البرمجة ومهام الوكلاء، بينما يتوفر تحت رخصة MIT. يؤسس نشر تقرير التخريب ASL-4 من قبل Anthropic سابقة لشفافية الأمان والتي من المرجح أن تضطر المختبرات الأخرى لاتباعها.
على جانب المطورين، ترسم بدائيات الوكلاء من OpenAI (ضغط الخادم، حاويات الشبكة، مهارات API) ونهج “Harness Engineering” مستقبلاً يدير فيه الوكلاء المستقلون جلسات لعدة ساعات. يدفع Kimi Agent Swarm هذا المنطق إلى أبعد من ذلك مع تنسيق مئات الوكلاء الفرعيين بالتوازي.
المصادر
- Z.ai — مدونة GLM-5 التقنية
- Z.ai — إعلان GLM-5 على X
- Anthropic — سلسلة تقرير مخاطر التخريب
- OpenAIDevs — بدائيات الوكلاء
- OpenAI — Harness Engineering
- Kimi — Agent Swarm
- Runway — تمويل الفئة E
- Claude — Cowork Windows
- Claude — ميزات الخطة المجانية
- Boris Cherny — Claude Code Slack
- ElevenLabs — الوضع التعبيري
- Qoder — Kimi K2.5