Claude Opus 4.6 और GPT-5.3-Codex: दोहरा लॉन्च, Gemini 3 अपडेट

शिखर पर दोहरा लॉन्च: Anthropic ने 1 मिलियन टोकन संदर्भ और एजेंट टीमों के साथ Claude Opus 4.6 जारी किया, जबकि OpenAI ने GPT-5.3-Codex और एक एंटरप्राइज़ प्लेटफ़ॉर्म के साथ जवाब दिया। Google सभी मोर्चों पर Gemini 3 को आगे बढ़ा रहा है, और GitHub ने अंततः 8 साल पुरानी मांग का जवाब दिया है।

Claude Opus 4.6: एजेंटिक कोडिंग और 1M संदर्भ में SOTA

5 फरवरी — Anthropic ने Claude Opus 4.6 लॉन्च किया, जो इसके सबसे बुद्धिमान मॉडल का एक बड़ा अपडेट है। मॉडल योजना, लंबे सत्रों, कोड समीक्षा में प्रगति करता है, और पहली बार Opus मॉडल के लिए बीटा में 1 मिलियन टोकन संदर्भ प्रदान करता है।

बेंचमार्क	स्कोर	विवरण
Terminal-Bench 2.0	SOTA	उच्चतम एजेंटिक कोडिंग स्कोर
Humanity’s Last Exam	SOTA	बहु-विषयक तर्क
GDPval-AA	+144 Elo बनाम GPT-5.2	पेशेवर काम (वित्त, कानूनी)
BrowseComp	SOTA	जटिल सूचना पुनर्प्राप्ति
MRCR v2 (8-needle 1M)	76%	Sonnet 4.5 के लिए 18.5% बनाम

API और उत्पाद नई सुविधाएँ

सुविधा	विवरण
Agent teams	समानांतर में कई Claude Code एजेंट (research preview)
Adaptive thinking	मॉडल चुनता है कि गहरी सोच का उपयोग कब करना है
Effort controls	4 स्तर: निम्न, मध्यम, उच्च (डिफ़ॉल्ट), अधिकतम
Context compaction	लंबे सत्रों के लिए स्वचालित संदर्भ सारांश
128k output tokens	एक ही अनुरोध में लंबे आउटपुट
Claude in PowerPoint	Research preview (Max, Team, Enterprise)

मूल्य निर्धारण: $5/$ 25 प्रति मिलियन टोकन (इनपुट/आउटपुट) पर अपरिवर्तित। 200k टोकन से परे प्रीमियम मूल्य निर्धारण ( $10/$ 37.50)।

उपलब्धता: claude.ai, API (claude-opus-4-6), और सभी प्रमुख क्लाउड प्लेटफ़ॉर्म।

इंजीनियरिंग ब्लॉग: इंफ्रास्ट्रक्चर शोर और C कंपाइलर

Anthropic ने एक ही दिन दो तकनीकी लेख प्रकाशित किए। पहला एजेंटिक कोडिंग बेंचमार्क में इंफ्रास्ट्रक्चर शोर को निर्धारित करता है: Terminal-Bench 2.0 पर, संसाधन कॉन्फ़िगरेशन अकेले सेटअप के बीच 6 प्रतिशत अंकों का अंतर पैदा कर सकता है। दूसरा 16 Claude एजेंटों द्वारा समानांतर में Rust में एक C कंपाइलर के निर्माण का दस्तावेजीकरण करता है: 1,00,000 लाइन कोड, x86, ARM और RISC-V पर Linux 6.9 कर्नेल को संकलित करने में सक्षम, ~$20,000 में ~2,000 Claude Code सत्रों में।

GitHub Copilot में Opus 4.6

उसी दिन, एक दिन पहले घोषित सार्वजनिक पूर्वावलोकन के बाद, Agent HQ के माध्यम से GitHub Copilot में Claude Opus 4.6 GA (आम तौर पर उपलब्ध) हो गया।

🔗 Opus 4.6 घोषणा | इंफ्रास्ट्रक्चर शोर | C कंपाइलर बनाना

GPT-5.3-Codex: कोडिंग फ्रंटियर + प्रो ज्ञान

5 फरवरी — OpenAI ने GPT-5.3-Codex लॉन्च किया, जो GPT-5.2-Codex के कोडिंग प्रदर्शन को GPT-5.2 की तर्क क्षमताओं के साथ मिलाता है, सब कुछ 25% तेज़।

बेंचमार्क	स्कोर
SWE-Bench Pro (सार्वजनिक)	56.8%
Terminal-Bench 2.0	77.3%
OSWorld-Verified	64.7%
GDPval (जीत या ड्रा)	70.9%
Cybersecurity CTF	77.6%
SWE-Lancer IC Diamond	81.4%

GPT-5.3-Codex अपनी खुद की रचना में योगदान देने वाला पहला मॉडल है: टीम ने प्रशिक्षण को डिबग करने, परिनियोजन (deployment) का प्रबंधन करने और परीक्षण परिणामों का विश्लेषण करने के लिए प्रारंभिक संस्करणों का उपयोग किया।

कोड से परे

मॉडल प्रस्तुतियाँ, स्प्रेडशीट, डेटा विश्लेषण तैयार करता है और डेस्कटॉप वातावरण में उत्पादकता कार्यों को संभालता है (OSWorld-Verified पर 64.7%)।

साइबर सुरक्षा: उच्च क्षमता

GPT-5.3-Codex OpenAI के तैयारी ढांचे के तहत साइबर सुरक्षा के लिए उच्च क्षमता (High Capability) का दर्जा पाने वाला पहला मॉडल है, और विशेष रूप से सॉफ़्टवेयर कमजोरियों की पहचान करने के लिए प्रशिक्षित पहला मॉडल है।

🔗 GPT-5.3-Codex ब्लॉग | System Card

OpenAI: Frontier, MCP Apps, सुरक्षा और बायोटेक

OpenAI Frontier: एंटरप्राइज़ एजेंट प्लेटफ़ॉर्म

5 फरवरी — OpenAI ने एंटरप्राइज़ में AI एजेंटों को विकसित करने, तैनात करने और प्रबंधित करने के लिए एक प्लेटफ़ॉर्म Frontier लॉन्च किया। एजेंट साझा व्यावसायिक संदर्भ, अनुमतियाँ प्राप्त करते हैं, और अनुभव से सीखते हैं।

पहलू	विवरण
पहले ग्राहक	HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
AI पार्टनर्स	Abridge, Clay, Ambience, Decagon, Harvey, Sierra
दृष्टिकोण	टीमों में एकीकृत फॉरवर्ड डिप्लॉयड इंजीनियर्स (FDE)
मानक	खुले मानक, मौजूदा सिस्टम के साथ संगत

ChatGPT: बीटा में MCP Apps

5 फरवरी — MCP Apps ChatGPT Business, Enterprise और Edu में बीटा में आ गए हैं। नए पार्टनर कनेक्टर्स: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte और अन्य। संगठन डेवलपर मोड के माध्यम से कस्टम MCP ऐप बना सकते हैं।

Trusted Access for Cyber

5 फरवरी — OpenAI ने उन्नत साइबर क्षमताओं के लिए एक विश्वास-आधारित एक्सेस पायलट प्रोग्राम Trusted Access for Cyber लॉन्च किया। उपयोगकर्ता chatgpt.com/cyber पर अपनी पहचान सत्यापित कर सकते हैं। Cybersecurity Grant Program के माध्यम से साइबर रक्षा के लिए $10 मिलियन API क्रेडिट आवंटित किए गए हैं।

GPT-5 प्रोटीन संश्लेषण लागत को कम करता है

5 फरवरी — Ginkgo Bioworks के साथ साझेदारी में, OpenAI ने सेल-फ्री प्रोटीन संश्लेषण (CFPS) को अनुकूलित करने के लिए GPT-5 को एक रोबोटिक लैब से जोड़ा। परिणाम: छह दौर के प्रयोगों में 580 स्वचालित प्लेटों पर 36,000 रचनाओं का परीक्षण करने के बाद, उत्पादन लागत में 40% की कमी और अभिकर्मक (reagent) लागत में 57% का सुधार।

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 प्रोटीन

Google: Gemini 3, Super Bowl और NotebookLM

Gemini 3: अपडेट और Super Bowl

5-6 फरवरी — Google सभी मोर्चों पर Gemini 3 को आगे बढ़ा रहा है। हाल ही में लॉन्च किया गया Gemini 3 Flash, Flash गति पर प्रो-स्तरीय तर्क प्रदान करता है: GPQA Diamond पर 90.4% और Humanity’s Last Exam पर 33.7% (बिना टूल के)। Gemini 3 Google Search में AI Overviews के लिए डिफ़ॉल्ट मॉडल बन गया है।

Google Super Bowl LX (8 फरवरी) के लिए 60 सेकंड का Gemini विज्ञापन भी तैयार कर रहा है — “New Home” स्थान Gemini की मदद से एक बच्चे को चलने (move) की तैयारी करते हुए दिखाता है, जो Google फ़ोटो में खोज क्षमताओं और छवि निर्माण को चित्रित करता है।

NotebookLM: इन्फोग्राफिक्स और स्लाइड डेक

NotebookLM, जो अब Gemini 3 पर बनाया गया है, फ्री और प्रो उपयोगकर्ताओं के लिए इन्फोग्राफिक्स और स्लाइड डेक रोल आउट करता है। स्लाइड डेक पहले से ही दूसरा सबसे लोकप्रिय आउटपुट स्टूडियो है। अल्ट्रा उपयोगकर्ता वॉटरमार्क हटा सकते हैं।

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics

GitHub: Issues पर पिन किए गए कमेंट्स

5 फरवरी — GitHub ने Issues पर पिन किए गए कमेंट्स लॉन्च किए। अब संदर्भ मेनू से किसी समस्या के शीर्ष पर एक टिप्पणी को पिन करना संभव है। लंबे धागों (threads) में निर्णयों, अपडेट और प्रमुख अगले चरणों को उजागर करने के लिए 2017 से अनुरोध की गई एक सुविधा।

🔗 Changelog

इसका क्या मतलब है

5 फरवरी, 2026 एक यादगार दिन रहेगा: Anthropic और OpenAI ने एक साथ अपने सबसे उन्नत कोडिंग मॉडल लॉन्च किए। Claude Opus 4.6 पेशेवर काम और सूचना पुनर्प्राप्ति बेंचमार्क पर हावी है, जबकि GPT-5.3-Codex टर्मिनल कोडिंग और कंप्यूटर उपयोग में उत्कृष्टता प्राप्त करता है। दोनों मॉडल Terminal-Bench 2.0 पर SOTA (State Of The Art) का दावा करते हैं — इंफ्रास्ट्रक्चर शोर पर Anthropic का लेख पूरी तरह से समझ में आता है।

मॉडल से परे, प्लेटफ़ॉर्म की लड़ाई तेज हो रही है: OpenAI Frontier ओरेकल और उबर में तैनात एजेंटों के साथ उद्यम पर हमला करता है, जबकि Anthropic डेवलपर पारिस्थितिकी तंत्र (GitHub, Xcode, Claude Code) पर दांव लगाता है। Google सर्च, क्रोम और NotebookLM में Gemini 3 के साथ सभी मोर्चों पर आगे बढ़ रहा है, और Gemini को मुख्यधारा में लाने के लिए Super Bowl तैयार कर रहा है।