खोजें

GLM-5 ओपन-सोर्स, सबोटेज रिस्क रिपोर्ट ASL-4, OpenAI ने एजेंटिक प्रिमिटिव्स लॉन्च किए

GLM-5 ओपन-सोर्स, सबोटेज रिस्क रिपोर्ट ASL-4, OpenAI ने एजेंटिक प्रिमिटिव्स लॉन्च किए

Z.ai ने GLM-5 लॉन्च किया, जो MIT लाइसेंस के तहत 744 बिलियन पैरामीटर्स वाला इसका नया फ्लैगशिप ओपन-सोर्स मॉडल है, जो कोडिंग और एजेंटिक कार्यों पर ओपन-सोर्स मॉडल में पहले स्थान पर पहुंच गया है। Anthropic ने Opus 4.6 के लिए ASL-4 सबोटेज रिस्क रिपोर्ट प्रकाशित की, OpenAI ने एजेंटिक प्रिमिटिव्स के साथ अपने API को समृद्ध किया, और Kimi ने 100 समानांतर उप-एजेंटों की एक प्रणाली का खुलासा किया। इकोसिस्टम की ओर, Runway ने 315 मिलियन डॉलर जुटाए और ElevenLabs ने अपने वॉयस एजेंटों के लिए एक एक्सप्रेसिव मोड लॉन्च किया।


Z.ai ने GLM-5 लॉन्च किया: 744B पैरामीटर्स, MIT लाइसेंस के तहत ओपन-सोर्स

11 फरवरी — Z.ai (Zhipu AI) ने GLM-5 लॉन्च किया, जो जटिल सिस्टम इंजीनियरिंग और लंबी अवधि के एजेंटिक कार्यों के लिए डिज़ाइन किया गया इसका नया फ्रंटियर मॉडल है। GLM-4.5 की तुलना में, मॉडल 355B पैरामीटर्स (32B सक्रिय) से बढ़कर 744B पैरामीटर्स (40B सक्रिय) हो गया है, जिसमें प्री-ट्रेनिंग डेटा 23T से बढ़कर 28.5T टोकन हो गया है।

GLM-5 लंबी संदर्भ क्षमता को संरक्षित करते हुए तैनाती लागत को कम करने के लिए DeepSeek Sparse Attention (DSA) को एकीकृत करता है, और “slime” पेश करता है, जो एक अतुल्यकालिक सुदृढीकरण सीखने का बुनियादी ढांचा है जो पोस्ट-ट्रेनिंग थ्रूपुट में सुधार करता है।

बेंचमार्कGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77.8%73.8%76.8%80.9%76.2%
HLE (text)30.524.831.528.437.2
HLE w/ Tools50.442.851.843.445.8
Terminal-Bench 2.056.241.050.859.354.2
Vending Bench 2$4,432$2,377$1,198$4,967$5,478

GLM-5 खुद को तर्क, कोडिंग और एजेंटिक कार्यों पर सबसे अच्छे ओपन-सोर्स मॉडल के रूप में स्थापित करता है, जो प्रोप्राइटरी फ्रंटियर मॉडल के साथ अंतर को कम करता है। Vending Bench 2 पर, एक बेंचमार्क जो एक साल तक वेंडिंग मशीन के प्रबंधन का अनुकरण करता है, GLM-5 4,432केशेषकेसाथसमाप्तहोताहै,जोClaudeOpus4.5(4,432 के शेष के साथ समाप्त होता है, जो Claude Opus 4.5 (4,967) के करीब पहुंचता है।

कोड के अलावा, GLM-5 सीधे .docx, .pdf और .xlsx फाइलें उत्पन्न कर सकता है — प्रस्ताव, वित्तीय रिपोर्ट, स्प्रेडशीट — जो टर्नकी वितरित की जाती हैं। Z.ai दस्तावेज़ निर्माण के लिए अंतर्निहित कौशल के साथ एक एजेंट मोड तैनात करता है, जो मल्टी-टर्न सहयोग का समर्थन करता है।

मॉडल वेट हगिंग फेस पर MIT लाइसेंस के तहत प्रकाशित किए जाते हैं। GLM-5 Claude Code और OpenClaw के साथ संगत है, और OpenRouter पर उपलब्ध है। तैनाती प्रगतिशील है, जिसकी शुरुआत कोडिंग प्लान मैक्स ग्राहकों से होती है।

🔗 GLM-5 तकनीकी ब्लॉग 🔗 X पर घोषणा


Anthropic ने पहली ASL-4 सबोटेज रिस्क रिपोर्ट प्रकाशित की

11 फरवरी — Anthropic ने स्वायत्त AI R&D के लिए ASL-4 (AI Safety Level 4) सुरक्षा सीमा की प्रत्याशा में Claude Opus 4.6 के लिए एक सबोटेज रिस्क रिपोर्ट प्रकाशित की।

Claude Opus 4.5 के रिलीज होने पर, Anthropic ने हर नए फ्रंटियर मॉडल के लिए सबोटेज रिस्क रिपोर्ट लिखने के लिए प्रतिबद्ध किया था। अस्पष्ट सीमाओं में नेविगेट करने के बजाय, कंपनी ने उच्च ASL-4 सुरक्षा मानक का सक्रिय रूप से सम्मान करने का विकल्प चुना।

तत्वविवरण
मूल्यांकन किया गया मॉडलClaude Opus 4.6
सुरक्षा सीमाASL-4 (AI Safety Level 4)
डोमेनस्वायत्त AI R&D
प्रारूपसार्वजनिक PDF रिपोर्ट
मिसालOpus 4.5 लॉन्च के दौरान की गई प्रतिबद्धता

यह AI सुरक्षा पारदर्शिता में एक महत्वपूर्ण कदम है: Anthropic उत्पादन में एक मॉडल के लिए ऐसी सबोटेज रिपोर्ट प्रकाशित करने वाली पहली प्रयोगशालाओं में से एक है।

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇮🇳 जब हमने Claude Opus 4.5 जारी किया, तो हमें पता था कि भविष्य के मॉडल स्वायत्त AI R&D के लिए हमारे AI Safety Level 4 सीमा के करीब होंगे। इसलिए हमने भविष्य के फ्रंटियर मॉडल के लिए सबोटेज रिस्क रिपोर्ट लिखने के लिए प्रतिबद्ध किया। आज हम Claude Opus 4.6 के लिए उस प्रतिबद्धता को पूरा कर रहे हैं।@AnthropicAI X पर

🔗 Anthropic थ्रेड


OpenAI: Responses API में नए एजेंटिक प्रिमिटिव्स

10 फरवरी — OpenAI ने लंबी अवधि के एजेंटिक कार्य के लिए Responses API में तीन नए प्रिमिटिव्स पेश किए।

सर्वर-साइड कॉम्पैक्टियन

संदर्भ सीमाओं तक पहुंचे बिना कई घंटों के एजेंट सत्रों की अनुमति देता है। कॉम्पैक्टियन सर्वर-साइड प्रबंधित किया जाता है। ट्रिपल व्हेल, एक अर्ली एक्सेस टेस्टर, रिपोर्ट करता है कि उसने बिना सटीकता खोए एक ही सत्र में 150 टूल कॉल और 5 मिलियन टोकन हासिल किए हैं।

नेटवर्किंग के साथ कंटेनर्स

OpenAI द्वारा होस्ट किए गए कंटेनर अब नियंत्रित तरीके से इंटरनेट का उपयोग कर सकते हैं। एडमिनिस्ट्रेटर डैशबोर्ड में डोमेन की एक श्वेतसूची को परिभाषित करते हैं, अनुरोधों को स्पष्ट रूप से network_policy को परिभाषित करना चाहिए, और डोमेन सीक्रेट्स को मॉडल को कच्चे मूल्यों को उजागर किए बिना इंजेक्ट किया जा सकता है।

API में कौशल

पहले से निर्मित कौशल (स्प्रेडशीट) के साथ एजेंट कौशल मानक का मूल समर्थन। कौशल पुन: प्रयोज्य और संस्करण वाले बंडल हैं जिन्हें होस्ट किए गए शेल वातावरण में माउंट किया जा सकता है, और मॉडल रनटाइम पर तय करते हैं कि उन्हें लागू करना है या नहीं।

प्रिमिटिवविवरणस्थिति
सर्वर-साइड कॉम्पैक्टियनसंदर्भ सीमाओं के बिना बहु-घंटे के सत्रउपलब्ध
नेटवर्किंग के साथ कंटेनर्सहोस्ट किए गए कंटेनरों के लिए नियंत्रित इंटरनेट एक्सेसउपलब्ध
API में कौशलपुन: प्रयोज्य बंडल (पहला कौशल: स्प्रेडशीट)उपलब्ध

🔗 OpenAIDevs थ्रेड


Kimi Agent Swarm: 100 उप-एजेंटों का ऑर्केस्ट्रेशन

10 फरवरी — Kimi (Moonshot AI) ने एजेंट स्वार्म का अनावरण किया, जो एक मल्टी-एजेंट समन्वय क्षमता है जो 100 विशेष उप-एजेंटों के साथ जटिल कार्यों को समानांतर करने की अनुमति देती है।

सिस्टम 1,500 से अधिक टूल कॉल निष्पादित कर सकता है और अनुक्रमिक निष्पादन की तुलना में 4.5 गुना अधिक गति तक पहुंचता है। उपयोग के मामलों में एक साथ कई फाइलें (Word, Excel, PDF) उत्पन्न करना, समानांतर सामग्री विश्लेषण, और समानांतर में कई शैलियों में रचनात्मक पीढ़ी शामिल है। एजेंट स्वार्म LLM की एक संरचनात्मक सीमा को हल करता है: संदर्भ को भरने वाले लंबे कार्यों के दौरान तर्क का क्षरण।

🔗 Kimi घोषणा


OpenAI Harness Engineering: Codex के साथ शून्य लाइन मैनुअल कोड

11 फरवरी — OpenAI ने शून्य लाइन मैनुअल रूप से लिखे गए कोड के साथ एक आंतरिक सॉफ्टवेयर उत्पाद बनाने पर प्रतिक्रिया प्रकाशित की। 5 महीनों के लिए, 3 से 7 इंजीनियरों की एक टीम ने सभी कोड उत्पन्न करने के लिए विशेष रूप से Codex का उपयोग किया।

मीट्रिकमूल्य
उत्पन्न कोड लाइनें~1 मिलियन
पुल रिक्वेस्ट~1,500
प्रति इंजीनियर प्रति दिन PRऔसतन 3.5
आंतरिक उपयोगकर्ताकई सौ
अनुमानित समयहाथ से आवश्यक समय का 1/10
Codex सत्र6+ घंटे तक

“Harness Engineering” दृष्टिकोण इंजीनियर की भूमिका को फिर से परिभाषित करता है: कोड लिखने के बजाय वातावरण डिजाइन करना, इरादा निर्दिष्ट करना और एजेंटों के लिए फीडबैक लूप बनाना। रेपो में संरचित दस्तावेज़ एक गाइड के रूप में कार्य करते हैं (AGENTS.md सामग्री की तालिका के रूप में), आर्किटेक्चर Codex द्वारा उत्पन्न लिंटर्स और संरचनात्मक परीक्षणों के साथ कठोर है, और आवर्ती कार्य विचलन को स्कैन करते हैं और स्वचालित रूप से रिफैक्टोरिंग PR खोलते हैं।

🔗 Harness Engineering ब्लॉग


Runway ने सीरीज़ E में 315 मिलियन डॉलर जुटाए

10 फरवरी — Runway ने 315 मिलियन डॉलर की सीरीज़ E फंडरेजिंग की घोषणा की, जिससे इसका मूल्यांकन 5.3 बिलियन डॉलर हो गया। राउंड का नेतृत्व जनरल अटलांटिक ने किया है, जिसमें NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein और अन्य की भागीदारी है।

विवरणमूल्य
राशि$315M
सीरीज़E
मूल्यांकन5.3B(vs5.3B (vs 3.3B सीरीज़ D में)
लीड इन्वेस्टरजनरल अटलांटिक
2018 से कुल जुटाए गए$860M

फंड का उपयोग “वर्ल्ड मॉडल” की अगली पीढ़ी को प्री-ट्रेन करने के लिए किया जाएगा — भौतिक दुनिया का अनुकरण करने में सक्षम मॉडल — और उन्हें नए उत्पादों और उद्योगों में तैनात किया जाएगा। यह घोषणा Runway के नवीनतम वीडियो जेनरेशन मॉडल Gen-4.5 के लॉन्च के बाद आई है।

🔗 आधिकारिक घोषणा 🔗 X पर Runway पोस्ट


Cowork Windows पर उपलब्ध

10 फरवरी — Claude Cowork, मल्टी-स्टेप कार्यों के लिए डेस्कटॉप एप्लिकेशन, अब macOS की तुलना में पूर्ण फीचर समानता के साथ रिसर्च प्रीव्यू में Windows पर उपलब्ध है।

फ़ीचरविवरण
फ़ाइल एक्सेसस्थानीय फ़ाइलों को पढ़ना और लिखना
प्लगइन्सCowork प्लगइन्स के लिए समर्थन
MCP कनेक्टर्सMCP सर्वर के साथ एकीकरण
निर्देश प्रति फ़ोल्डरClaude.md शैली — प्रति प्रोजेक्ट प्राकृतिक भाषा निर्देश

Windows पर Cowork claude.com/cowork के माध्यम से सभी सशुल्क Claude प्लान के लिए उपलब्ध है।

🔗 Cowork Windows घोषणा


Claude फ्री प्लान पर मुफ्त सुविधाएँ

11 फरवरी — Anthropic ने मुफ्त Claude प्लान पर उपलब्ध सुविधाओं का विस्तार किया। फ़ाइल निर्माण, कनेक्टर्स, कौशल और कॉम्पैक्टियन अब सदस्यता के बिना उपलब्ध हैं। कॉम्पैक्टियन Claude को पिछले संदर्भ को स्वचालित रूप से सारांशित करने की अनुमति देता है ताकि लंबी बातचीत बिना फिर से शुरू किए जारी रह सके।

🔗 फ्री प्लान घोषणा


Slack में Claude Code Plan Mode

11 फरवरी — Slack में Claude Code एकीकरण को Plan Mode प्राप्त हुआ। Slack में Claude को कोड कार्य देते समय, यह अब निष्पादित करने से पहले एक योजना विस्तृत कर सकता है, जिससे कार्यान्वयन से पहले दृष्टिकोण को मान्य करने की अनुमति मिलती है।

फ़ीचरविवरण
Plan Modeनिष्पादन से पहले योजना विस्तार
स्वचालित पहचानकोड और चैट के बीच बुद्धिमान मार्ग
PR निर्माणसीधे Slack से “Create PR” बटन
पूर्वापेक्षाएँप्रो, मैक्स, टीम या एंटरप्राइज प्लान + कनेक्टेड GitHub

🔗 Boris Cherny थ्रेड


ElevenLabs ने अपने वॉयस एजेंटों के लिए एक्सप्रेसिव मोड लॉन्च किया

10 फरवरी — ElevenLabs ने ElevenAgents के लिए एक्सप्रेसिव मोड का अनावरण किया, एक विकास जो इसके AI वॉयस एजेंटों को वास्तविक समय में अपने टोन, भावना और जोर को अनुकूलित करने में सक्षम बनाता है।

मोड Eleven v3 Conversational पर निर्भर करता है, जो वास्तविक समय संवाद के लिए अनुकूलित एक वॉयस सिंथेसिस मॉडल है, जो एक नए टर्न-टेकिंग सिस्टम के साथ युग्मित है जो रुकावटों को कम करता है। कीमत $0.08 प्रति मिनट पर बनी हुई है। समानांतर में, ElevenLabs अपने प्लेटफॉर्म को तीन उत्पाद परिवारों में पुनर्गठित करता है: ElevenAgents (वॉयस एजेंट), ElevenCreative (रचनात्मक उपकरण) और ElevenAPI (डेवलपर प्लेटफॉर्म)।

🔗 Expressive Mode ब्लॉग


Kimi K2.5 Qoder पर एकीकृत

9 फरवरी — Qoder (डेवलपर्स के लिए AI प्लेटफॉर्म) ने Kimi K2.5 को अपने मार्केटप्लेस के फ्लैगशिप मॉडल के रूप में तैनात किया, जिसमें 76.8% का SWE-bench Verified स्कोर और एक लाभप्रद दर (Efficient टियर में 0.3x क्रेडिट) है। अनुशंसित वर्कफ़्लो: डिज़ाइन और आर्किटेक्चर के लिए भारी मॉडल का उपयोग करें, फिर कार्यान्वयन के लिए K2.5 का उपयोग करें।

🔗 Qoder घोषणा


इसका क्या मतलब है

ओपन-सोर्स फ्रंटियर मॉडल की ओर तेजी से प्रगति कर रहा है। Z.ai का GLM-5 कोडिंग और एजेंटिक कार्य बेंचमार्क पर Claude Opus 4.5 और GPT-5.2 के साथ अंतर को कम करता है, जबकि MIT लाइसेंस के तहत उपलब्ध है। Anthropic द्वारा ASL-4 सबोटेज रिपोर्ट का प्रकाशन सुरक्षा पारदर्शिता के लिए एक मिसाल कायम करता है जिसका पालन करने के लिए अन्य प्रयोगशालाओं को संभवतः मजबूर होना पड़ेगा।

डेवलपर पक्ष पर, OpenAI के एजेंटिक प्रिमिटिव्स (सर्वर-साइड कॉम्पैक्टियन, नेटवर्क कंटेनर्स, API कौशल) और “Harness Engineering” दृष्टिकोण एक ऐसे भविष्य की रूपरेखा तैयार करते हैं जहां स्वायत्त एजेंट बहु-घंटे के सत्रों का प्रबंधन करते हैं। Kimi एजेंट स्वार्म समानांतर में सैकड़ों उप-एजेंटों के ऑर्केस्ट्रेशन के साथ इस तर्क को और भी आगे बढ़ाता है।


स्रोत