शिखर पर दोहरा लॉन्च: Anthropic ने 1 मिलियन टोकन संदर्भ और एजेंट टीमों के साथ Claude Opus 4.6 जारी किया, जबकि OpenAI ने GPT-5.3-Codex और एक एंटरप्राइज़ प्लेटफ़ॉर्म के साथ जवाब दिया। Google सभी मोर्चों पर Gemini 3 को आगे बढ़ा रहा है, और GitHub ने अंततः 8 साल पुरानी मांग का जवाब दिया है।
Claude Opus 4.6: एजेंटिक कोडिंग और 1M संदर्भ में SOTA
5 फरवरी — Anthropic ने Claude Opus 4.6 लॉन्च किया, जो इसके सबसे बुद्धिमान मॉडल का एक बड़ा अपडेट है। मॉडल योजना, लंबे सत्रों, कोड समीक्षा में प्रगति करता है, और पहली बार Opus मॉडल के लिए बीटा में 1 मिलियन टोकन संदर्भ प्रदान करता है।
| बेंचमार्क | स्कोर | विवरण |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | उच्चतम एजेंटिक कोडिंग स्कोर |
| Humanity’s Last Exam | SOTA | बहु-विषयक तर्क |
| GDPval-AA | +144 Elo बनाम GPT-5.2 | पेशेवर काम (वित्त, कानूनी) |
| BrowseComp | SOTA | जटिल सूचना पुनर्प्राप्ति |
| MRCR v2 (8-needle 1M) | 76% | Sonnet 4.5 के लिए 18.5% बनाम |
API और उत्पाद नई सुविधाएँ
| सुविधा | विवरण |
|---|---|
| Agent teams | समानांतर में कई Claude Code एजेंट (research preview) |
| Adaptive thinking | मॉडल चुनता है कि गहरी सोच का उपयोग कब करना है |
| Effort controls | 4 स्तर: निम्न, मध्यम, उच्च (डिफ़ॉल्ट), अधिकतम |
| Context compaction | लंबे सत्रों के लिए स्वचालित संदर्भ सारांश |
| 128k output tokens | एक ही अनुरोध में लंबे आउटपुट |
| Claude in PowerPoint | Research preview (Max, Team, Enterprise) |
मूल्य निर्धारण: 25 प्रति मिलियन टोकन (इनपुट/आउटपुट) पर अपरिवर्तित। 200k टोकन से परे प्रीमियम मूल्य निर्धारण (37.50)।
उपलब्धता: claude.ai, API (claude-opus-4-6), और सभी प्रमुख क्लाउड प्लेटफ़ॉर्म।
इंजीनियरिंग ब्लॉग: इंफ्रास्ट्रक्चर शोर और C कंपाइलर
Anthropic ने एक ही दिन दो तकनीकी लेख प्रकाशित किए। पहला एजेंटिक कोडिंग बेंचमार्क में इंफ्रास्ट्रक्चर शोर को निर्धारित करता है: Terminal-Bench 2.0 पर, संसाधन कॉन्फ़िगरेशन अकेले सेटअप के बीच 6 प्रतिशत अंकों का अंतर पैदा कर सकता है। दूसरा 16 Claude एजेंटों द्वारा समानांतर में Rust में एक C कंपाइलर के निर्माण का दस्तावेजीकरण करता है: 1,00,000 लाइन कोड, x86, ARM और RISC-V पर Linux 6.9 कर्नेल को संकलित करने में सक्षम, ~$20,000 में ~2,000 Claude Code सत्रों में।
GitHub Copilot में Opus 4.6
उसी दिन, एक दिन पहले घोषित सार्वजनिक पूर्वावलोकन के बाद, Agent HQ के माध्यम से GitHub Copilot में Claude Opus 4.6 GA (आम तौर पर उपलब्ध) हो गया।
🔗 Opus 4.6 घोषणा | इंफ्रास्ट्रक्चर शोर | C कंपाइलर बनाना
GPT-5.3-Codex: कोडिंग फ्रंटियर + प्रो ज्ञान
5 फरवरी — OpenAI ने GPT-5.3-Codex लॉन्च किया, जो GPT-5.2-Codex के कोडिंग प्रदर्शन को GPT-5.2 की तर्क क्षमताओं के साथ मिलाता है, सब कुछ 25% तेज़।
| बेंचमार्क | स्कोर |
|---|---|
| SWE-Bench Pro (सार्वजनिक) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (जीत या ड्रा) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex अपनी खुद की रचना में योगदान देने वाला पहला मॉडल है: टीम ने प्रशिक्षण को डिबग करने, परिनियोजन (deployment) का प्रबंधन करने और परीक्षण परिणामों का विश्लेषण करने के लिए प्रारंभिक संस्करणों का उपयोग किया।
कोड से परे
मॉडल प्रस्तुतियाँ, स्प्रेडशीट, डेटा विश्लेषण तैयार करता है और डेस्कटॉप वातावरण में उत्पादकता कार्यों को संभालता है (OSWorld-Verified पर 64.7%)।
साइबर सुरक्षा: उच्च क्षमता
GPT-5.3-Codex OpenAI के तैयारी ढांचे के तहत साइबर सुरक्षा के लिए उच्च क्षमता (High Capability) का दर्जा पाने वाला पहला मॉडल है, और विशेष रूप से सॉफ़्टवेयर कमजोरियों की पहचान करने के लिए प्रशिक्षित पहला मॉडल है।
🔗 GPT-5.3-Codex ब्लॉग | System Card
OpenAI: Frontier, MCP Apps, सुरक्षा और बायोटेक
OpenAI Frontier: एंटरप्राइज़ एजेंट प्लेटफ़ॉर्म
5 फरवरी — OpenAI ने एंटरप्राइज़ में AI एजेंटों को विकसित करने, तैनात करने और प्रबंधित करने के लिए एक प्लेटफ़ॉर्म Frontier लॉन्च किया। एजेंट साझा व्यावसायिक संदर्भ, अनुमतियाँ प्राप्त करते हैं, और अनुभव से सीखते हैं।
| पहलू | विवरण |
|---|---|
| पहले ग्राहक | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| AI पार्टनर्स | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| दृष्टिकोण | टीमों में एकीकृत फॉरवर्ड डिप्लॉयड इंजीनियर्स (FDE) |
| मानक | खुले मानक, मौजूदा सिस्टम के साथ संगत |
ChatGPT: बीटा में MCP Apps
5 फरवरी — MCP Apps ChatGPT Business, Enterprise और Edu में बीटा में आ गए हैं। नए पार्टनर कनेक्टर्स: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte और अन्य। संगठन डेवलपर मोड के माध्यम से कस्टम MCP ऐप बना सकते हैं।
Trusted Access for Cyber
5 फरवरी — OpenAI ने उन्नत साइबर क्षमताओं के लिए एक विश्वास-आधारित एक्सेस पायलट प्रोग्राम Trusted Access for Cyber लॉन्च किया। उपयोगकर्ता chatgpt.com/cyber पर अपनी पहचान सत्यापित कर सकते हैं। Cybersecurity Grant Program के माध्यम से साइबर रक्षा के लिए $10 मिलियन API क्रेडिट आवंटित किए गए हैं।
GPT-5 प्रोटीन संश्लेषण लागत को कम करता है
5 फरवरी — Ginkgo Bioworks के साथ साझेदारी में, OpenAI ने सेल-फ्री प्रोटीन संश्लेषण (CFPS) को अनुकूलित करने के लिए GPT-5 को एक रोबोटिक लैब से जोड़ा। परिणाम: छह दौर के प्रयोगों में 580 स्वचालित प्लेटों पर 36,000 रचनाओं का परीक्षण करने के बाद, उत्पादन लागत में 40% की कमी और अभिकर्मक (reagent) लागत में 57% का सुधार।
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 प्रोटीन
Google: Gemini 3, Super Bowl और NotebookLM
Gemini 3: अपडेट और Super Bowl
5-6 फरवरी — Google सभी मोर्चों पर Gemini 3 को आगे बढ़ा रहा है। हाल ही में लॉन्च किया गया Gemini 3 Flash, Flash गति पर प्रो-स्तरीय तर्क प्रदान करता है: GPQA Diamond पर 90.4% और Humanity’s Last Exam पर 33.7% (बिना टूल के)। Gemini 3 Google Search में AI Overviews के लिए डिफ़ॉल्ट मॉडल बन गया है।
Google Super Bowl LX (8 फरवरी) के लिए 60 सेकंड का Gemini विज्ञापन भी तैयार कर रहा है — “New Home” स्थान Gemini की मदद से एक बच्चे को चलने (move) की तैयारी करते हुए दिखाता है, जो Google फ़ोटो में खोज क्षमताओं और छवि निर्माण को चित्रित करता है।
NotebookLM: इन्फोग्राफिक्स और स्लाइड डेक
NotebookLM, जो अब Gemini 3 पर बनाया गया है, फ्री और प्रो उपयोगकर्ताओं के लिए इन्फोग्राफिक्स और स्लाइड डेक रोल आउट करता है। स्लाइड डेक पहले से ही दूसरा सबसे लोकप्रिय आउटपुट स्टूडियो है। अल्ट्रा उपयोगकर्ता वॉटरमार्क हटा सकते हैं।
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub: Issues पर पिन किए गए कमेंट्स
5 फरवरी — GitHub ने Issues पर पिन किए गए कमेंट्स लॉन्च किए। अब संदर्भ मेनू से किसी समस्या के शीर्ष पर एक टिप्पणी को पिन करना संभव है। लंबे धागों (threads) में निर्णयों, अपडेट और प्रमुख अगले चरणों को उजागर करने के लिए 2017 से अनुरोध की गई एक सुविधा।
इसका क्या मतलब है
5 फरवरी, 2026 एक यादगार दिन रहेगा: Anthropic और OpenAI ने एक साथ अपने सबसे उन्नत कोडिंग मॉडल लॉन्च किए। Claude Opus 4.6 पेशेवर काम और सूचना पुनर्प्राप्ति बेंचमार्क पर हावी है, जबकि GPT-5.3-Codex टर्मिनल कोडिंग और कंप्यूटर उपयोग में उत्कृष्टता प्राप्त करता है। दोनों मॉडल Terminal-Bench 2.0 पर SOTA (State Of The Art) का दावा करते हैं — इंफ्रास्ट्रक्चर शोर पर Anthropic का लेख पूरी तरह से समझ में आता है।
मॉडल से परे, प्लेटफ़ॉर्म की लड़ाई तेज हो रही है: OpenAI Frontier ओरेकल और उबर में तैनात एजेंटों के साथ उद्यम पर हमला करता है, जबकि Anthropic डेवलपर पारिस्थितिकी तंत्र (GitHub, Xcode, Claude Code) पर दांव लगाता है। Google सर्च, क्रोम और NotebookLM में Gemini 3 के साथ सभी मोर्चों पर आगे बढ़ रहा है, और Gemini को मुख्यधारा में लाने के लिए Super Bowl तैयार कर रहा है।
स्रोत
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues