खोजें

OpenAI ने GPT-5.5 लॉन्च किया, Anthropic ने Managed Agents के लिए मेमोरी खोली, Kimi K2.6 Agent Swarm

OpenAI ने GPT-5.5 लॉन्च किया, Anthropic ने Managed Agents के लिए मेमोरी खोली, Kimi K2.6 Agent Swarm

23 अप्रैल 2026 एक व्यस्त दिन को चिह्नित करता है: OpenAI GPT-5.5 को ARC-AGI-2 पर 85% और इनपुट में $5/M tokens की API कीमत के साथ लॉन्च करता है, जबकि Anthropic अपने Managed Agents के लिए स्थायी मेमोरी को बीटा में खोलता है और Claude Code पर एक post-mortem प्रकाशित करता है। साथ ही, GitHub Copilot तीन दिनों में सात अपडेट जारी करता है, Kimi K2.6 300 उप-एजेंटों का एक swarm तैनात करता है, और SpaceX Cursor के साथ एक कोडिंग साझेदारी पक्की करता है।


GPT-5.5 : OpenAI का frontier मॉडल

23 अप्रैल — OpenAI GPT-5.5 लॉन्च करता है, जो अब तक का उसका सबसे शक्तिशाली मॉडल है, वास्तविक काम और agents के लिए डिज़ाइन किया गया। यह agentic coding, कंप्यूटर का उपयोग (computer use), ज्ञान कार्य और वैज्ञानिक शोध में उल्लेखनीय सुधार करता है, जबकि GPT-5.4 की latency बनाए रखता है।

उपलब्धता और मूल्य निर्धारण

GPT-5.5 ChatGPT Plus, Pro, Business और Enterprise ग्राहकों के लिए तुरंत उपलब्ध है, साथ ही Codex में भी। API access “बहुत जल्द” आने वाला है।

प्रस्तावAPI accessइनपुटआउटपुट
GPT-5.5 standardजल्द$5 / M tokens$30 / M tokens
GPT-5.5 Proजल्द$30 / M tokens$180 / M tokens

Codex में context window 400K tokens तक पहुँचती है। एक Fast mode — 1.5× तेज, 2.5× लागत — उपलब्ध है।

Benchmarks

मूल्यांकनGPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE (आंतरिक)73.1%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%22.9%16.7%
CyberGym81.8%79.0%73.1%
BixBench (bioinformatics)80.5%74.0%

GPT-5.5 अधिकांश benchmarks में आगे है, एक उल्लेखनीय अपवाद के साथ: SWE-Bench Pro, जहाँ Claude Opus 4.7 बढ़त बनाए रखता है (64.3% बनाम 58.6%)।

Infrastructure और सुरक्षा

मॉडल को NVIDIA GB200/GB300 NVL72 के साथ सह-डिज़ाइन किया गया। Codex ने अपनी स्वयं की infrastructure को optimize करने के लिए GPT-5.5 का उपयोग किया, जिससे token generation गति में +20% वृद्धि हुई। साइबर सुरक्षा के मामले में, GPT-5.5 को OpenAI के Preparedness Framework में High (Critical नहीं) के रूप में वर्गीकृत किया गया है; Trusted Access Cyber कार्यक्रम इसे विस्तारित किया गया है।

वैज्ञानिक शोध

कोड से परे, GPT-5.5 ने Ramsey संख्याओं (combinatorics) पर एक नए theorem को सिद्ध करने में मदद की, जिसे Lean में औपचारिक रूप से सत्यापित किया गया। इसने 62 नमूनों और 28,000 genes के एक genomics dataset का भी कुछ ही मिनटों में विश्लेषण किया — एक ऐसा कार्य जिसे शोधकर्ताओं की एक टीम को महीनों लग जाते।

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇮🇳 GPT-5.5, GPT-5.4 की तुलना में स्पष्ट रूप से अधिक बुद्धिमान और अधिक दृढ़ है, जिसमें coding performance अधिक मजबूत है और tool use अधिक विश्वसनीय है। — Michael Truell, co-founder और Cursor के CEO

🔗 GPT-5.5 घोषणा


स्थायी agents की लहर

तीन प्रमुख घोषणाएँ 23 अप्रैल को persistent agent के इर्द-गिर्द एक साथ आती हैं, जो लंबे समय तक स्वायत्त रूप से काम करने और एक session से दूसरी session तक context बनाए रखने में सक्षम है।

ChatGPT में OpenAI Workspace Agents

22 अप्रैल — OpenAI Workspace Agents प्रस्तुत करता है: साझा agents जिन्हें कोई टीम एक बार बनाती है, ChatGPT या Slack में मिलकर उपयोग करती है, और क्रमशः बेहतर बनाती है। Codex in the cloud द्वारा संचालित, वे जटिल कार्य तब भी चला सकते हैं जब उपयोगकर्ता disconnected हो। Workspace Agents क्रमशः GPTs की जगह लेते हैं, जो संक्रमण अवधि में उपलब्ध रहते हैं।

agent का प्रकारकार्यक्षमता
Software verifierअनुरोधों की जाँच करता है, नीतियों की तुलना करता है, IT tickets बनाता है
Product feedback routerSlack/support/forums की निगरानी करता है → प्राथमिकता वाले tickets
Report generatorशुक्रवार का data निकालता है, charts बनाता है, सारांश तैयार करता है
Prospection agentleads खोजता है, मूल्यांकन करता है, emails लिखता है, CRM अपडेट करता है
Third-party risk managersuppliers का मूल्यांकन करता है, संरचित रिपोर्ट तैयार करता है

Business, Enterprise, Edu और Teachers के लिए research preview में उपलब्ध; 6 मई 2026 तक मुफ्त, फिर credits में billing।

Ankur Bhatt (AI Engineering, Rippling) के अनुसार, जो पहले sales टीमों को प्रति सप्ताह 5 से 6 घंटे लगते थे, वे अब हर opportunity पर background में स्वचालित रूप से चलते हैं।

🔗 Workspace Agents


Anthropic — Claude Managed Agents के लिए मेमोरी

23 अप्रैलClaude Managed Agents के लिए मेमोरी अब Claude Platform पर public beta में उपलब्ध है। agents अब एक session से दूसरी session तक सीख सकते हैं, एक memory layer की बदौलत जो सीधे file system पर mounted है: agents वही bash और code execution क्षमताएँ उपयोग करते हैं जो वे पहले से agentic tasks के लिए इस्तेमाल करते हैं।

विशेषताविवरण
साझा करने योग्य storesकई agents, अलग-अलग access scopes (read-only / read-write)
समकालिक accessparallel sessions के बीच overwrite नहीं
audit logकौन-सी session, कौन-सा agent, कौन-सी memory
rollbackकिसी भी पूर्व संस्करण पर
exportabilityAPI के जरिए प्रबंधनीय memories

ग्राहक परिणाम ठोस प्रभाव दिखाते हैं:

ग्राहकपरिणाम
Rakutenपहले pass की errors में -97%, लागत में -27%, latency में -34%
Wisedocsदस्तावेज़ सत्यापन गति में +30%
Netflixmanual अपडेट के बिना sessions के बीच context continuity
Andoसमर्पित infrastructure के बिना platform memory

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇮🇳 Claude Managed Agents में मेमोरी हमें बड़े पैमाने पर continuous learning को production में लाने देती है। हमारे agents हर session से सबक निकालते हैं, जिससे पहले pass की errors 97% कम हो जाती हैं, लागत 27% कम होती है और latency 34% कम होती है। — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Managed Agents मेमोरी


Claude Code : गुणवत्ता post-mortem और दो नए versions

Post-mortem और limits reset

23 अप्रैल — Claude Code टीम ने पिछले महीने के दौरान रिपोर्ट की गई तीन quality समस्याओं पर एक post-mortem प्रकाशित किया है। सभी v2.1.116+ में ठीक कर दी गई हैं। सभी subscribers के लिए usage limits reset कर दी गई हैं।

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇮🇳 पिछले महीने के दौरान, आप में से कुछ ने Claude Code की quality में गिरावट की सूचना दी थी। हमने जांच की, और हमारे द्वारा पहचानी गई तीन समस्याओं पर एक post-mortem प्रकाशित किया। सभी v2.1.116+ में ठीक कर दी गई हैं और हमने सभी subscribers के लिए usage limits reset कर दी हैं।@ClaudeDevs

v2.1.117 और v2.1.118

Versionमुख्य विशेषताएँ
v2.1.118visual Vim mode (v/V) with selection and operators; /usage unified (merges /cost and /stats); custom themes in /theme; hooks invoking MCP tools via type: "mcp_tool"; strict DISABLE_UPDATES; managed settings inheritance in Windows via WSL
v2.1.117default effort changed to high for Pro/Max on Opus 4.6 and Sonnet 4.6 (was medium); sub-agent fork enabled on external builds; glob/Grep replaced by embedded bfs/ugrep for faster searches; fix sessions Opus 4.7 (1M context computed correctly); fix Bedrock+Opus 4.7 with thinking disabled

🔗 Claude Code CHANGELOG


दैनिक जीवन के लिए नए Claude connectors

23 अप्रैल — Anthropic अपने connectors के संग्रह को consumer applications तक विस्तारित करता है। जुलाई 2025 से, professional tools के लिए 200 से अधिक connectors उपलब्ध थे; यह अपडेट रोज़मर्रा की 15 सेवाएँ जोड़ता है।

Applicationश्रेणी
AllTrailsHiking
AudibleAudiobooks
Booking.comTravel
InstacartOnline groceries
Intuit Credit KarmaFinance
Intuit TurboTaxTaxation
ResyRestaurant reservations
SpotifyMusic
StubHubTicketing
TaskrabbitHome services
ThumbtackLocal professionals
TripAdvisorTravel
UberTransport
Uber EatsMeal delivery
ViatorTourist activities

Claude अब बातचीत के context के अनुसार automatically relevant connectors सुझाता है। सभी plans पर उपलब्ध (free सहित), web, desktop और mobile (mobile beta में)। कोई paid placement या sponsored response नहीं; किसी app का data models को train करने के लिए उपयोग नहीं किया जाता।

🔗 दैनिक जीवन connectors


GitHub Copilot — तीन दिनों में सात अपडेट

GitHub Copilot ने 22 और 23 अप्रैल के बीच अपने changelog में सात प्रविष्टियाँ प्रकाशित कीं।

pull requests के लिए Chat (3 नई क्षमताएँ)

23 अप्रैल — Copilot Chat अब pull requests के लिए तीन क्षमताएँ एकीकृत करता है, github.com/copilot या diffs पर Copilot बटन के माध्यम से उपलब्ध (public preview) :

  • PR समझ (pull request understanding) : टिप्पणियाँ, बदलाव, commits और reviews संदर्भ के रूप में एकीकृत
  • PR review : मांग पर संरचित समीक्षा
  • PR summary : बदलावों का संक्षिप्त सारांश

🔗 Copilot Chat PR improvements

issues और projects से संचालित agent sessions

23 अप्रैल — cloud agent अब सीधे GitHub issues और project boards से संचालित किया जा सकता है: issue header में session indicator, progress side panel, projects की सभी views में default रूप से सक्षम sessions।

🔗 issues से agent sessions

web पर stack traces का संरचित debugging

23 अप्रैल — github.com पर Copilot Chat अब छह संरचित चरणों में stack traces का विश्लेषण मार्गदर्शित करता है: क्या विफल हुआ, क्यों, root cause, code से प्राप्त evidence, confidence स्तर, और अगले checks।

🔗 stack traces debugging

BYOK VS Code उपलब्ध (GA)

22 अप्रैल — Bring Your Own Key (अपना API key लाएँ) VS Code में Copilot Business और Enterprise उपयोगकर्ताओं के लिए general availability में है। Anthropic, Gemini, OpenAI, OpenRouter, Azure समर्थित हैं, साथ ही Ollama और Foundry Local के जरिए local models भी। billing सीधे चुने गए provider द्वारा की जाती है, Copilot quotas के बाहर।

🔗 BYOK VS Code GA

Copilot CLI के लिए Public preview में C++ Language Server

22 अप्रैल — Microsoft C++ Language Server (Visual Studio/VS Code का IntelliSense engine) Copilot CLI के लिए public preview में उपलब्ध है। यह सटीक semantic data देता है (symbol definitions, references, call hierarchies, types) iterative grep search के स्थान पर। आवश्यकताएँ: Copilot CLI authentication + compile_commands.json.

🔗 C++ Language Server

नई Business self-serve registrations निलंबित

22 अप्रैल — GitHub GitHub Free और GitHub Team plans पर Copilot Business के लिए self-serve में नई registrations निलंबित करता है। मौजूदा ग्राहकों पर कोई प्रभाव नहीं पड़ता।

🔗 Business self-serve pause

API metrics में used_copilot_cloud_agent field

23 अप्रैल — “coding agent” → “cloud agent” rebranding के बाद, metrics API user reports (1 day और 28 days rolling) में used_copilot_cloud_agent field जोड़ता है। पुराना field used_copilot_coding_agent 1 अगस्त 2026 तक बनाए रखा जाएगा।

🔗 cloud agent metrics


Gemini CLI v0.39.0 और सभी Ultra के लिए Deep Think

Gemini CLI v0.39.0

23 अप्रैल — Google Gemini CLI v0.39.0 जारी करता है, “Latest” के रूप में चिह्नित स्थिर संस्करण। मुख्य आकर्षण नई /memory inbox command है, जो कार्य सत्रों के दौरान CLI द्वारा स्वचालित रूप से निकाले गए skills की समीक्षा और पुष्टि करने के लिए है।

विशेषताविवरण
/memory inboxस्वचालित रूप से निकाले गए skills की समीक्षा
invoke_subagent unifiedपुनर्गठित sub-agent tool एक एकल interface में
Compact formattingcompact mode में बेहतर पठनीयता
Plan Mode — confirmationsskills activation से पहले validation आवश्यक
हल्का startupतेज startup के लिए हल्की parent process
JSONL streaming migrationchat session logging JSONL में

जोड़े गए keyboard shortcuts: Windows Terminal के लिए शब्द-दर-शब्द deletion हेतु Ctrl+Backspace, Ctrl+Shift+G

🔗 Gemini CLI v0.39.0

सभी Ultra subscribers के लिए Deep Think खुला

22 अप्रैल — Google Deep Think mode (गहन reasoning, extended thinking) को Gemini Ultra के सभी subscribers के लिए खोलता है। यह mode पहले सीमित access में था; अब यह Gemini app (web और mobile) के tools menu से सीधे उपलब्ध है।

🔗 Tweet @GeminiApp


Kimi K2.6 : 300 उप-एजेंटों का swarm और open-weights benchmarks

Agent Swarm — 300 समानांतर उप-एजेंट

23 अप्रैल — Moonshot AI Kimi K2.6 Agent Swarm लॉन्च करता है: एक प्रणाली जो प्रति execution 4,000 steps पर समानांतर 300 उप-एजेंट तैनात कर सकती है, जबकि K2.5 के लिए 100 agents और 1,500 steps थे।

क्षमताK2.5K2.6
समानांतर उप-एजेंट100300
प्रति execution steps1,5004,000
output के प्रकारChat text100+ वास्तविक files, 100,000 शब्दों की reviews, 20,000-पंक्ति datasets

उप-एजेंट विविध कौशलों को जोड़ते हैं: web research, data analysis, coding, long-form लेखन और visual generation। kimi.com/agent-swarm पर उपलब्ध।

🔗 Tweet @Kimi_Moonshot

Benchmarks : open-weights में नंबर 1

23 अप्रैल — Kimi K2.6 दो benchmarks पर open-weights models में पहला स्थान प्राप्त करता है: - Design Arena : Claude Opus 4.7 के समान प्रदर्शन-बैंड

  • MathArena open (Think मोड) : GLM 5.1 से आगे

🔗 Design Arena


SpaceXAI × Cursor और Grok Imagine

SpaceXAI × Cursor साझेदारी

22 अप्रैल — SpaceXAI (xAI/SpaceX के विलय से बनी इकाई) और Cursor ने मिलकर “दुनिया की सबसे शक्तिशाली कोडिंग और ज्ञान-काम IA” बनाने के लिए एक साझेदारी की घोषणा की। SpaceX सुपरकंप्यूटर Colossus (1 मिलियन H100 के समकक्ष) प्रदान करता है; Cursor उसे 2026 में बाद में $60 अरब में कंपनी खरीदने का अधिकार देता है, या केवल सहयोग के लिए $10 अरब का भुगतान करने का विकल्प देता है।

🔗 Tweet @SpaceX

Grok Imagine — साझा किए जा सकने वाले कस्टम templates

22 अप्रैल — SuperGrok और Premium+ सब्सक्राइबर अब Grok Imagine में कस्टम templates बना सकते हैं और उन्हें सार्वजनिक रूप से साझा कर सकते हैं।

🔗 Tweet @imagine


NVIDIA × Google Cloud Next

22 अप्रैल — Google Cloud Next (Las Vegas) में, NVIDIA और Google Cloud agentic IA infrastructure के आसपास कई प्रमुख प्रगतियों की घोषणा करते हैं।

घोषणाविवरण
Instances A5X (Vera Rubin NVL72)multisite cluster में 960,000 तक Rubin GPUs, token प्रति 10× कम लागत, megawatt प्रति 10× अधिक throughput
Gemini on Google Distributed CloudBlackwell और Blackwell Ultra GPUs के साथ preview — data sovereignty
Confidential VMs Blackwellpublic cloud में पहली Blackwell confidential computing पेशकश
Nemotron 3 SuperGemini Enterprise Agent Platform पर उपलब्ध
NeMo RL APIबड़े पैमाने पर managed reinforcement learning

🔗 Blog NVIDIA × Google Cloud


Kling AI Video 3.0 — native 4K mode

23 अप्रैल — Kling AI अपनी Video 3.0 श्रृंखला में native 4K mode लॉन्च करता है। 4K generation एक ही क्लिक में होती है, बिना किसी अतिरिक्त upscaling चरण के। दृश्य संगति (characters, texts, styles, lighting) उच्च-स्तरीय production के लिए native resolution में सुनिश्चित की जाती है। व्यवसायों के लिए fal.ai के माध्यम से भी उपलब्ध।

Kling AI साथ ही एक 4K Short Film Creative Contest आयोजित कर रहा है, एक वैश्विक प्रतियोगिता जो creators को नए mode के साथ बनाए गए short films जमा करने के लिए आमंत्रित करती है।

🔗 Tweet @Kling_ai


Clinicians के लिए ChatGPT और OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 अप्रैल — OpenAI ChatGPT for Clinicians लॉन्च करता है, जो संयुक्त राज्य अमेरिका में सत्यापित स्वास्थ्य पेशेवरों (चिकित्सक, nurse practitioners, medical assistants, pharmacists) के लिए एक मुफ़्त संस्करण है। सेवा में जटिल clinical प्रश्नों के लिए frontier models तक पहुँच, repetitive workflows (referral letters, prior authorizations) के लिए skills, real-time cited clinical research, और continuing education credits (CME) का स्वचालित generation शामिल है। HIPAA handling agreement के माध्यम से वैकल्पिक रूप से उपलब्ध है।

OpenAI HealthBench Professional भी प्रकाशित करता है, एक खुला benchmark जो वास्तविक clinical tasks पर IA का मूल्यांकन करता है (700,000+ doctor-evaluated responses)। ChatGPT for Clinicians में GPT-5.4, web access के साथ non-time-limited परिस्थितियों में, इस benchmark पर मानव doctors से बेहतर प्रदर्शन करता है।

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 अप्रैल — OpenAI Privacy Filter प्रकाशित करता है, एक open-weight (Apache 2.0) मॉडल जो text में personally identifiable information (PII) का पता लगाने और उसे छिपाने के लिए है। मॉडल स्थानीय रूप से चलता है (कोई data server को नहीं भेजा जाता), 128K tokens of context का समर्थन करता है, और PII-Masking-300k benchmark पर 97.43% F1 score प्राप्त करता है।

विशेषतामान
Architecturebidirectional token classifier (constrained Viterbi decoding)
Size1.5B total parameters, 50M active
Context128,000 tokens
LicenseApache 2.0 (Hugging Face + GitHub)
F1corrected PII-Masking-300k पर 97.43%

कवर की गई PII श्रेणियाँ: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (पासवर्ड और API keys)।

🔗 OpenAI Privacy Filter


Perplexity और Cohere

Perplexity ने Kimi K2.6 को एकीकृत किया

23 अप्रैल — Moonshot AI का Kimi K2.6 अब Perplexity के सभी Pro और Max subscribers के लिए उपलब्ध है।

🔗 Tweet @perplexity_ai

Cohere — vLLM में production-ready W4A8

22 अप्रैल — Cohere अपने W4A8 inference (weights के लिए 4-bit quantization, activations के लिए 8 bits) को vLLM में एकीकृत करने की घोषणा करता है। Hopper GPU पर W4A16 की तुलना में परिणाम: पहला token आने तक का समय (Time To First Token) +58% और output token प्रति समय (Time Per Output Token) +45%। यह integration उत्पादन में बड़े पैमाने पर MoE Command A models को प्राथमिकता से लक्षित करता है।

🔗 Blog Cohere W4A8


संक्षेप

Suno संगीत App Store में नंबर 1

21 अप्रैल — Suno, IA music generation platform, App Store की music category में पहला स्थान प्राप्त करती है। CEO Mikey Shulman घोषणा करते हैं: « संगीत का भविष्य ऐसा है जहाँ हर कोई बनाने का आनंद लेता है। »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 अप्रैल — Anthropic, Anthropic Interviewer के माध्यम से Claude users के एक random sample पर संचालित एक monthly survey, Anthropic Economic Index Survey लॉन्च करता है। उद्देश्य IA के आर्थिक प्रभाव पर qualitative data इकट्ठा करना है: delegated tasks, productivity gains, role changes। परिणाम भविष्य की Anthropic Economic Index reports को feed करेंगे।

🔗 Annonce enquête

Anthropic — production में MCP agents: आंकड़े

22 अप्रैल — Anthropic का एक technical article production agents के लिए MCP के लाभों को दस्तावेज़ करता है: MCP SDKs प्रति माह 300 मिलियन downloads से अधिक हैं, tool search tool definition tokens को 85% कम करती है, और programmatic tool calling जटिल multi-step workflows पर token usage को 37% कम करता है।

🔗 Blog MCP production agents

OpenAI — Responses API में WebSockets : 40% latency लाभ

22 अप्रैल — OpenAI का एक retrospective article बताता है कि Responses API में WebSocket mode agent loops की latency को 40% तक कैसे कम करता है। persistent connection पिछली responses की स्थिति का memory cache बनाए रखता है, जिससे हर call पर पूरे इतिहास को फिर से process करने से बचा जाता है। पहले से production में: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%)।

🔗 Article WebSockets

Perplexity Research — retrieval-augmented model training

22 अप्रैल — Perplexity अपने SFT + RL pipeline (Supervised Fine-Tuning + Reinforcement Learning) पर research प्रकाशित करता है ताकि search response quality में सुधार हो सके। मुख्य परिणाम: post-trained Qwen models कम लागत पर GPT models की factuality तक पहुँचते हैं।

🔗 Research Perplexity


इसका अर्थ क्या है

23 अप्रैल 2026 दो अभिसारी प्रवृत्तियाँ दर्शाता है। एक ओर, GPT-5.5 पुष्टि करता है कि OpenAI ने agentic benchmarks (Terminal-Bench, ARC-AGI-2, OSWorld) पर फिर से बढ़त हासिल कर ली है, उन कई महीनों के बाद जब Claude Opus 4.7 हावी था। SWE-Bench Pro पर अंतर अभी भी कम है, जहाँ Anthropic लाभ बनाए हुए है — यह संकेत कि दोनों प्रयोगशालाएँ समान प्राथमिक use cases पर सहमत हैं।

दूसरी ओर, यह दिन persistent agents with memory के युग में प्रवेश को चिह्नित करता है: OpenAI Workspace Agents, Anthropic Managed Agents Memory और Kimi K2.6 Agent Swarm एक साथ अलग-अलग approaches (Slack integration, filesystem-based, sub-agents का swarm) के साथ आ रहे हैं, लेकिन लक्ष्य एक ही है — agent को याद रहे, वह सीखे और निरंतर supervision के बिना कार्य करे। Rakuten के आँकड़े (-97% errors, -27% cost) प्रभाव का पहला औद्योगिक माप देते हैं।

GitHub Copilot GitHub.com में deep integration की अपनी strategy जारी रखता है (PR chat, issues से agent sessions, structured stack traces) और साथ ही BYOK के माध्यम से बाहर की ओर भी खुलता है। BYOK VS Code GA संकेत देता है कि Copilot उतना ही interface के रूप में position कर रहा है जितना model के रूप में।


स्रोत

यह दस्तावेज़ मॉडल gpt-5.4-mini का उपयोग करके fr संस्करण से hi भाषा में अनुवादित किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, https://gitlab.com/jls42/ai-powered-markdown-translator देखें