GLM-5 ओपन-सोर्स, सबोटेज रिस्क रिपोर्ट ASL-4, OpenAI ने एजेंटिक प्रिमिटिव्स लॉन्च किए

Z.ai ने GLM-5 लॉन्च किया, जो MIT लाइसेंस के तहत 744 बिलियन पैरामीटर्स वाला इसका नया फ्लैगशिप ओपन-सोर्स मॉडल है, जो कोडिंग और एजेंटिक कार्यों पर ओपन-सोर्स मॉडल में पहले स्थान पर पहुंच गया है। Anthropic ने Opus 4.6 के लिए ASL-4 सबोटेज रिस्क रिपोर्ट प्रकाशित की, OpenAI ने एजेंटिक प्रिमिटिव्स के साथ अपने API को समृद्ध किया, और Kimi ने 100 समानांतर उप-एजेंटों की एक प्रणाली का खुलासा किया। इकोसिस्टम की ओर, Runway ने 315 मिलियन डॉलर जुटाए और ElevenLabs ने अपने वॉयस एजेंटों के लिए एक एक्सप्रेसिव मोड लॉन्च किया।

Z.ai ने GLM-5 लॉन्च किया: 744B पैरामीटर्स, MIT लाइसेंस के तहत ओपन-सोर्स

11 फरवरी — Z.ai (Zhipu AI) ने GLM-5 लॉन्च किया, जो जटिल सिस्टम इंजीनियरिंग और लंबी अवधि के एजेंटिक कार्यों के लिए डिज़ाइन किया गया इसका नया फ्रंटियर मॉडल है। GLM-4.5 की तुलना में, मॉडल 355B पैरामीटर्स (32B सक्रिय) से बढ़कर 744B पैरामीटर्स (40B सक्रिय) हो गया है, जिसमें प्री-ट्रेनिंग डेटा 23T से बढ़कर 28.5T टोकन हो गया है।

GLM-5 लंबी संदर्भ क्षमता को संरक्षित करते हुए तैनाती लागत को कम करने के लिए DeepSeek Sparse Attention (DSA) को एकीकृत करता है, और “slime” पेश करता है, जो एक अतुल्यकालिक सुदृढीकरण सीखने का बुनियादी ढांचा है जो पोस्ट-ट्रेनिंग थ्रूपुट में सुधार करता है।

बेंचमार्क	GLM-5	GLM-4.7	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro
SWE-bench Verified	77.8%	73.8%	76.8%	80.9%	76.2%
HLE (text)	30.5	24.8	31.5	28.4	37.2
HLE w/ Tools	50.4	42.8	51.8	43.4	45.8
Terminal-Bench 2.0	56.2	41.0	50.8	59.3	54.2
Vending Bench 2	$4,432	$2,377	$1,198	$4,967	$5,478

GLM-5 खुद को तर्क, कोडिंग और एजेंटिक कार्यों पर सबसे अच्छे ओपन-सोर्स मॉडल के रूप में स्थापित करता है, जो प्रोप्राइटरी फ्रंटियर मॉडल के साथ अंतर को कम करता है। Vending Bench 2 पर, एक बेंचमार्क जो एक साल तक वेंडिंग मशीन के प्रबंधन का अनुकरण करता है, GLM-5 $4,432 के शेष के साथ समाप्त होता है, जो Claude Opus 4.5 ($ 4,967) के करीब पहुंचता है।

कोड के अलावा, GLM-5 सीधे .docx, .pdf और .xlsx फाइलें उत्पन्न कर सकता है — प्रस्ताव, वित्तीय रिपोर्ट, स्प्रेडशीट — जो टर्नकी वितरित की जाती हैं। Z.ai दस्तावेज़ निर्माण के लिए अंतर्निहित कौशल के साथ एक एजेंट मोड तैनात करता है, जो मल्टी-टर्न सहयोग का समर्थन करता है।

मॉडल वेट हगिंग फेस पर MIT लाइसेंस के तहत प्रकाशित किए जाते हैं। GLM-5 Claude Code और OpenClaw के साथ संगत है, और OpenRouter पर उपलब्ध है। तैनाती प्रगतिशील है, जिसकी शुरुआत कोडिंग प्लान मैक्स ग्राहकों से होती है।

🔗 GLM-5 तकनीकी ब्लॉग 🔗 X पर घोषणा

Anthropic ने पहली ASL-4 सबोटेज रिस्क रिपोर्ट प्रकाशित की

11 फरवरी — Anthropic ने स्वायत्त AI R&D के लिए ASL-4 (AI Safety Level 4) सुरक्षा सीमा की प्रत्याशा में Claude Opus 4.6 के लिए एक सबोटेज रिस्क रिपोर्ट प्रकाशित की।

Claude Opus 4.5 के रिलीज होने पर, Anthropic ने हर नए फ्रंटियर मॉडल के लिए सबोटेज रिस्क रिपोर्ट लिखने के लिए प्रतिबद्ध किया था। अस्पष्ट सीमाओं में नेविगेट करने के बजाय, कंपनी ने उच्च ASL-4 सुरक्षा मानक का सक्रिय रूप से सम्मान करने का विकल्प चुना।

तत्व	विवरण
मूल्यांकन किया गया मॉडल	Claude Opus 4.6
सुरक्षा सीमा	ASL-4 (AI Safety Level 4)
डोमेन	स्वायत्त AI R&D
प्रारूप	सार्वजनिक PDF रिपोर्ट
मिसाल	Opus 4.5 लॉन्च के दौरान की गई प्रतिबद्धता

यह AI सुरक्षा पारदर्शिता में एक महत्वपूर्ण कदम है: Anthropic उत्पादन में एक मॉडल के लिए ऐसी सबोटेज रिपोर्ट प्रकाशित करने वाली पहली प्रयोगशालाओं में से एक है।

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇮🇳 जब हमने Claude Opus 4.5 जारी किया, तो हमें पता था कि भविष्य के मॉडल स्वायत्त AI R&D के लिए हमारे AI Safety Level 4 सीमा के करीब होंगे। इसलिए हमने भविष्य के फ्रंटियर मॉडल के लिए सबोटेज रिस्क रिपोर्ट लिखने के लिए प्रतिबद्ध किया। आज हम Claude Opus 4.6 के लिए उस प्रतिबद्धता को पूरा कर रहे हैं। — @AnthropicAI X पर

🔗 Anthropic थ्रेड

OpenAI: Responses API में नए एजेंटिक प्रिमिटिव्स

10 फरवरी — OpenAI ने लंबी अवधि के एजेंटिक कार्य के लिए Responses API में तीन नए प्रिमिटिव्स पेश किए।

सर्वर-साइड कॉम्पैक्टियन

संदर्भ सीमाओं तक पहुंचे बिना कई घंटों के एजेंट सत्रों की अनुमति देता है। कॉम्पैक्टियन सर्वर-साइड प्रबंधित किया जाता है। ट्रिपल व्हेल, एक अर्ली एक्सेस टेस्टर, रिपोर्ट करता है कि उसने बिना सटीकता खोए एक ही सत्र में 150 टूल कॉल और 5 मिलियन टोकन हासिल किए हैं।

नेटवर्किंग के साथ कंटेनर्स

OpenAI द्वारा होस्ट किए गए कंटेनर अब नियंत्रित तरीके से इंटरनेट का उपयोग कर सकते हैं। एडमिनिस्ट्रेटर डैशबोर्ड में डोमेन की एक श्वेतसूची को परिभाषित करते हैं, अनुरोधों को स्पष्ट रूप से network_policy को परिभाषित करना चाहिए, और डोमेन सीक्रेट्स को मॉडल को कच्चे मूल्यों को उजागर किए बिना इंजेक्ट किया जा सकता है।

API में कौशल

पहले से निर्मित कौशल (स्प्रेडशीट) के साथ एजेंट कौशल मानक का मूल समर्थन। कौशल पुन: प्रयोज्य और संस्करण वाले बंडल हैं जिन्हें होस्ट किए गए शेल वातावरण में माउंट किया जा सकता है, और मॉडल रनटाइम पर तय करते हैं कि उन्हें लागू करना है या नहीं।

प्रिमिटिव	विवरण	स्थिति
सर्वर-साइड कॉम्पैक्टियन	संदर्भ सीमाओं के बिना बहु-घंटे के सत्र	उपलब्ध
नेटवर्किंग के साथ कंटेनर्स	होस्ट किए गए कंटेनरों के लिए नियंत्रित इंटरनेट एक्सेस	उपलब्ध
API में कौशल	पुन: प्रयोज्य बंडल (पहला कौशल: स्प्रेडशीट)	उपलब्ध

🔗 OpenAIDevs थ्रेड

Kimi Agent Swarm: 100 उप-एजेंटों का ऑर्केस्ट्रेशन

10 फरवरी — Kimi (Moonshot AI) ने एजेंट स्वार्म का अनावरण किया, जो एक मल्टी-एजेंट समन्वय क्षमता है जो 100 विशेष उप-एजेंटों के साथ जटिल कार्यों को समानांतर करने की अनुमति देती है।

सिस्टम 1,500 से अधिक टूल कॉल निष्पादित कर सकता है और अनुक्रमिक निष्पादन की तुलना में 4.5 गुना अधिक गति तक पहुंचता है। उपयोग के मामलों में एक साथ कई फाइलें (Word, Excel, PDF) उत्पन्न करना, समानांतर सामग्री विश्लेषण, और समानांतर में कई शैलियों में रचनात्मक पीढ़ी शामिल है। एजेंट स्वार्म LLM की एक संरचनात्मक सीमा को हल करता है: संदर्भ को भरने वाले लंबे कार्यों के दौरान तर्क का क्षरण।

🔗 Kimi घोषणा

OpenAI Harness Engineering: Codex के साथ शून्य लाइन मैनुअल कोड

11 फरवरी — OpenAI ने शून्य लाइन मैनुअल रूप से लिखे गए कोड के साथ एक आंतरिक सॉफ्टवेयर उत्पाद बनाने पर प्रतिक्रिया प्रकाशित की। 5 महीनों के लिए, 3 से 7 इंजीनियरों की एक टीम ने सभी कोड उत्पन्न करने के लिए विशेष रूप से Codex का उपयोग किया।

मीट्रिक	मूल्य
उत्पन्न कोड लाइनें	~1 मिलियन
पुल रिक्वेस्ट	~1,500
प्रति इंजीनियर प्रति दिन PR	औसतन 3.5
आंतरिक उपयोगकर्ता	कई सौ
अनुमानित समय	हाथ से आवश्यक समय का 1/10
Codex सत्र	6+ घंटे तक

“Harness Engineering” दृष्टिकोण इंजीनियर की भूमिका को फिर से परिभाषित करता है: कोड लिखने के बजाय वातावरण डिजाइन करना, इरादा निर्दिष्ट करना और एजेंटों के लिए फीडबैक लूप बनाना। रेपो में संरचित दस्तावेज़ एक गाइड के रूप में कार्य करते हैं (AGENTS.md सामग्री की तालिका के रूप में), आर्किटेक्चर Codex द्वारा उत्पन्न लिंटर्स और संरचनात्मक परीक्षणों के साथ कठोर है, और आवर्ती कार्य विचलन को स्कैन करते हैं और स्वचालित रूप से रिफैक्टोरिंग PR खोलते हैं।

🔗 Harness Engineering ब्लॉग

Runway ने सीरीज़ E में 315 मिलियन डॉलर जुटाए

10 फरवरी — Runway ने 315 मिलियन डॉलर की सीरीज़ E फंडरेजिंग की घोषणा की, जिससे इसका मूल्यांकन 5.3 बिलियन डॉलर हो गया। राउंड का नेतृत्व जनरल अटलांटिक ने किया है, जिसमें NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein और अन्य की भागीदारी है।

विवरण	मूल्य
राशि	$315M
सीरीज़	E
मूल्यांकन	$5.3B (vs$ 3.3B सीरीज़ D में)
लीड इन्वेस्टर	जनरल अटलांटिक
2018 से कुल जुटाए गए	$860M

फंड का उपयोग “वर्ल्ड मॉडल” की अगली पीढ़ी को प्री-ट्रेन करने के लिए किया जाएगा — भौतिक दुनिया का अनुकरण करने में सक्षम मॉडल — और उन्हें नए उत्पादों और उद्योगों में तैनात किया जाएगा। यह घोषणा Runway के नवीनतम वीडियो जेनरेशन मॉडल Gen-4.5 के लॉन्च के बाद आई है।

🔗 आधिकारिक घोषणा 🔗 X पर Runway पोस्ट

Cowork Windows पर उपलब्ध

10 फरवरी — Claude Cowork, मल्टी-स्टेप कार्यों के लिए डेस्कटॉप एप्लिकेशन, अब macOS की तुलना में पूर्ण फीचर समानता के साथ रिसर्च प्रीव्यू में Windows पर उपलब्ध है।

फ़ीचर	विवरण
फ़ाइल एक्सेस	स्थानीय फ़ाइलों को पढ़ना और लिखना
प्लगइन्स	Cowork प्लगइन्स के लिए समर्थन
MCP कनेक्टर्स	MCP सर्वर के साथ एकीकरण
निर्देश प्रति फ़ोल्डर	Claude.md शैली — प्रति प्रोजेक्ट प्राकृतिक भाषा निर्देश

Windows पर Cowork claude.com/cowork के माध्यम से सभी सशुल्क Claude प्लान के लिए उपलब्ध है।

🔗 Cowork Windows घोषणा

Claude फ्री प्लान पर मुफ्त सुविधाएँ

11 फरवरी — Anthropic ने मुफ्त Claude प्लान पर उपलब्ध सुविधाओं का विस्तार किया। फ़ाइल निर्माण, कनेक्टर्स, कौशल और कॉम्पैक्टियन अब सदस्यता के बिना उपलब्ध हैं। कॉम्पैक्टियन Claude को पिछले संदर्भ को स्वचालित रूप से सारांशित करने की अनुमति देता है ताकि लंबी बातचीत बिना फिर से शुरू किए जारी रह सके।

🔗 फ्री प्लान घोषणा

Slack में Claude Code Plan Mode

11 फरवरी — Slack में Claude Code एकीकरण को Plan Mode प्राप्त हुआ। Slack में Claude को कोड कार्य देते समय, यह अब निष्पादित करने से पहले एक योजना विस्तृत कर सकता है, जिससे कार्यान्वयन से पहले दृष्टिकोण को मान्य करने की अनुमति मिलती है।

फ़ीचर	विवरण
Plan Mode	निष्पादन से पहले योजना विस्तार
स्वचालित पहचान	कोड और चैट के बीच बुद्धिमान मार्ग
PR निर्माण	सीधे Slack से “Create PR” बटन
पूर्वापेक्षाएँ	प्रो, मैक्स, टीम या एंटरप्राइज प्लान + कनेक्टेड GitHub

🔗 Boris Cherny थ्रेड

ElevenLabs ने अपने वॉयस एजेंटों के लिए एक्सप्रेसिव मोड लॉन्च किया

10 फरवरी — ElevenLabs ने ElevenAgents के लिए एक्सप्रेसिव मोड का अनावरण किया, एक विकास जो इसके AI वॉयस एजेंटों को वास्तविक समय में अपने टोन, भावना और जोर को अनुकूलित करने में सक्षम बनाता है।

मोड Eleven v3 Conversational पर निर्भर करता है, जो वास्तविक समय संवाद के लिए अनुकूलित एक वॉयस सिंथेसिस मॉडल है, जो एक नए टर्न-टेकिंग सिस्टम के साथ युग्मित है जो रुकावटों को कम करता है। कीमत $0.08 प्रति मिनट पर बनी हुई है। समानांतर में, ElevenLabs अपने प्लेटफॉर्म को तीन उत्पाद परिवारों में पुनर्गठित करता है: ElevenAgents (वॉयस एजेंट), ElevenCreative (रचनात्मक उपकरण) और ElevenAPI (डेवलपर प्लेटफॉर्म)।

🔗 Expressive Mode ब्लॉग

Kimi K2.5 Qoder पर एकीकृत

9 फरवरी — Qoder (डेवलपर्स के लिए AI प्लेटफॉर्म) ने Kimi K2.5 को अपने मार्केटप्लेस के फ्लैगशिप मॉडल के रूप में तैनात किया, जिसमें 76.8% का SWE-bench Verified स्कोर और एक लाभप्रद दर (Efficient टियर में 0.3x क्रेडिट) है। अनुशंसित वर्कफ़्लो: डिज़ाइन और आर्किटेक्चर के लिए भारी मॉडल का उपयोग करें, फिर कार्यान्वयन के लिए K2.5 का उपयोग करें।

🔗 Qoder घोषणा

इसका क्या मतलब है

ओपन-सोर्स फ्रंटियर मॉडल की ओर तेजी से प्रगति कर रहा है। Z.ai का GLM-5 कोडिंग और एजेंटिक कार्य बेंचमार्क पर Claude Opus 4.5 और GPT-5.2 के साथ अंतर को कम करता है, जबकि MIT लाइसेंस के तहत उपलब्ध है। Anthropic द्वारा ASL-4 सबोटेज रिपोर्ट का प्रकाशन सुरक्षा पारदर्शिता के लिए एक मिसाल कायम करता है जिसका पालन करने के लिए अन्य प्रयोगशालाओं को संभवतः मजबूर होना पड़ेगा।

डेवलपर पक्ष पर, OpenAI के एजेंटिक प्रिमिटिव्स (सर्वर-साइड कॉम्पैक्टियन, नेटवर्क कंटेनर्स, API कौशल) और “Harness Engineering” दृष्टिकोण एक ऐसे भविष्य की रूपरेखा तैयार करते हैं जहां स्वायत्त एजेंट बहु-घंटे के सत्रों का प्रबंधन करते हैं। Kimi एजेंट स्वार्म समानांतर में सैकड़ों उप-एजेंटों के ऑर्केस्ट्रेशन के साथ इस तर्क को और भी आगे बढ़ाता है।