OpenAI ने GPT-5.5 लॉन्च किया, Anthropic ने Managed Agents के लिए मेमोरी खोली, Kimi K2.6 Agent Swarm

23 अप्रैल 2026 एक व्यस्त दिन को चिह्नित करता है: OpenAI GPT-5.5 को ARC-AGI-2 पर 85% और इनपुट में $5/M tokens की API कीमत के साथ लॉन्च करता है, जबकि Anthropic अपने Managed Agents के लिए स्थायी मेमोरी को बीटा में खोलता है और Claude Code पर एक post-mortem प्रकाशित करता है। साथ ही, GitHub Copilot तीन दिनों में सात अपडेट जारी करता है, Kimi K2.6 300 उप-एजेंटों का एक swarm तैनात करता है, और SpaceX Cursor के साथ एक कोडिंग साझेदारी पक्की करता है।

GPT-5.5 : OpenAI का frontier मॉडल

23 अप्रैल — OpenAI GPT-5.5 लॉन्च करता है, जो अब तक का उसका सबसे शक्तिशाली मॉडल है, वास्तविक काम और agents के लिए डिज़ाइन किया गया। यह agentic coding, कंप्यूटर का उपयोग (computer use), ज्ञान कार्य और वैज्ञानिक शोध में उल्लेखनीय सुधार करता है, जबकि GPT-5.4 की latency बनाए रखता है।

उपलब्धता और मूल्य निर्धारण

GPT-5.5 ChatGPT Plus, Pro, Business और Enterprise ग्राहकों के लिए तुरंत उपलब्ध है, साथ ही Codex में भी। API access “बहुत जल्द” आने वाला है।

प्रस्ताव	API access	इनपुट	आउटपुट
GPT-5.5 standard	जल्द	$5 / M tokens	$30 / M tokens
GPT-5.5 Pro	जल्द	$30 / M tokens	$180 / M tokens

Codex में context window 400K tokens तक पहुँचती है। एक Fast mode — 1.5× तेज, 2.5× लागत — उपलब्ध है।

Benchmarks

मूल्यांकन	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (आंतरिक)	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench (bioinformatics)	80.5%	74.0%	—	—

GPT-5.5 अधिकांश benchmarks में आगे है, एक उल्लेखनीय अपवाद के साथ: SWE-Bench Pro, जहाँ Claude Opus 4.7 बढ़त बनाए रखता है (64.3% बनाम 58.6%)।

Infrastructure और सुरक्षा

मॉडल को NVIDIA GB200/GB300 NVL72 के साथ सह-डिज़ाइन किया गया। Codex ने अपनी स्वयं की infrastructure को optimize करने के लिए GPT-5.5 का उपयोग किया, जिससे token generation गति में +20% वृद्धि हुई। साइबर सुरक्षा के मामले में, GPT-5.5 को OpenAI के Preparedness Framework में High (Critical नहीं) के रूप में वर्गीकृत किया गया है; Trusted Access Cyber कार्यक्रम इसे विस्तारित किया गया है।

वैज्ञानिक शोध

कोड से परे, GPT-5.5 ने Ramsey संख्याओं (combinatorics) पर एक नए theorem को सिद्ध करने में मदद की, जिसे Lean में औपचारिक रूप से सत्यापित किया गया। इसने 62 नमूनों और 28,000 genes के एक genomics dataset का भी कुछ ही मिनटों में विश्लेषण किया — एक ऐसा कार्य जिसे शोधकर्ताओं की एक टीम को महीनों लग जाते।

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇮🇳 GPT-5.5, GPT-5.4 की तुलना में स्पष्ट रूप से अधिक बुद्धिमान और अधिक दृढ़ है, जिसमें coding performance अधिक मजबूत है और tool use अधिक विश्वसनीय है। — Michael Truell, co-founder और Cursor के CEO

🔗 GPT-5.5 घोषणा

स्थायी agents की लहर

तीन प्रमुख घोषणाएँ 23 अप्रैल को persistent agent के इर्द-गिर्द एक साथ आती हैं, जो लंबे समय तक स्वायत्त रूप से काम करने और एक session से दूसरी session तक context बनाए रखने में सक्षम है।

ChatGPT में OpenAI Workspace Agents

22 अप्रैल — OpenAI Workspace Agents प्रस्तुत करता है: साझा agents जिन्हें कोई टीम एक बार बनाती है, ChatGPT या Slack में मिलकर उपयोग करती है, और क्रमशः बेहतर बनाती है। Codex in the cloud द्वारा संचालित, वे जटिल कार्य तब भी चला सकते हैं जब उपयोगकर्ता disconnected हो। Workspace Agents क्रमशः GPTs की जगह लेते हैं, जो संक्रमण अवधि में उपलब्ध रहते हैं।

agent का प्रकार	कार्यक्षमता
Software verifier	अनुरोधों की जाँच करता है, नीतियों की तुलना करता है, IT tickets बनाता है
Product feedback router	Slack/support/forums की निगरानी करता है → प्राथमिकता वाले tickets
Report generator	शुक्रवार का data निकालता है, charts बनाता है, सारांश तैयार करता है
Prospection agent	leads खोजता है, मूल्यांकन करता है, emails लिखता है, CRM अपडेट करता है
Third-party risk manager	suppliers का मूल्यांकन करता है, संरचित रिपोर्ट तैयार करता है

Business, Enterprise, Edu और Teachers के लिए research preview में उपलब्ध; 6 मई 2026 तक मुफ्त, फिर credits में billing।

Ankur Bhatt (AI Engineering, Rippling) के अनुसार, जो पहले sales टीमों को प्रति सप्ताह 5 से 6 घंटे लगते थे, वे अब हर opportunity पर background में स्वचालित रूप से चलते हैं।

🔗 Workspace Agents

Anthropic — Claude Managed Agents के लिए मेमोरी

23 अप्रैल — Claude Managed Agents के लिए मेमोरी अब Claude Platform पर public beta में उपलब्ध है। agents अब एक session से दूसरी session तक सीख सकते हैं, एक memory layer की बदौलत जो सीधे file system पर mounted है: agents वही bash और code execution क्षमताएँ उपयोग करते हैं जो वे पहले से agentic tasks के लिए इस्तेमाल करते हैं।

विशेषता	विवरण
साझा करने योग्य stores	कई agents, अलग-अलग access scopes (read-only / read-write)
समकालिक access	parallel sessions के बीच overwrite नहीं
audit log	कौन-सी session, कौन-सा agent, कौन-सी memory
rollback	किसी भी पूर्व संस्करण पर
exportability	API के जरिए प्रबंधनीय memories

ग्राहक परिणाम ठोस प्रभाव दिखाते हैं:

ग्राहक	परिणाम
Rakuten	पहले pass की errors में -97%, लागत में -27%, latency में -34%
Wisedocs	दस्तावेज़ सत्यापन गति में +30%
Netflix	manual अपडेट के बिना sessions के बीच context continuity
Ando	समर्पित infrastructure के बिना platform memory

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇮🇳 Claude Managed Agents में मेमोरी हमें बड़े पैमाने पर continuous learning को production में लाने देती है। हमारे agents हर session से सबक निकालते हैं, जिससे पहले pass की errors 97% कम हो जाती हैं, लागत 27% कम होती है और latency 34% कम होती है। — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Managed Agents मेमोरी

Claude Code : गुणवत्ता post-mortem और दो नए versions

Post-mortem और limits reset

23 अप्रैल — Claude Code टीम ने पिछले महीने के दौरान रिपोर्ट की गई तीन quality समस्याओं पर एक post-mortem प्रकाशित किया है। सभी v2.1.116+ में ठीक कर दी गई हैं। सभी subscribers के लिए usage limits reset कर दी गई हैं।

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇮🇳 पिछले महीने के दौरान, आप में से कुछ ने Claude Code की quality में गिरावट की सूचना दी थी। हमने जांच की, और हमारे द्वारा पहचानी गई तीन समस्याओं पर एक post-mortem प्रकाशित किया। सभी v2.1.116+ में ठीक कर दी गई हैं और हमने सभी subscribers के लिए usage limits reset कर दी हैं। — @ClaudeDevs

v2.1.117 और v2.1.118

Version	मुख्य विशेषताएँ
v2.1.118	visual Vim mode (`v`/`V`) with selection and operators; `/usage` unified (merges `/cost` and `/stats`); custom themes in `/theme`; hooks invoking MCP tools via `type: "mcp_tool"`; strict `DISABLE_UPDATES`; managed settings inheritance in Windows via WSL
v2.1.117	default effort changed to `high` for Pro/Max on Opus 4.6 and Sonnet 4.6 (was `medium`); sub-agent fork enabled on external builds; `glob`/`Grep` replaced by embedded `bfs`/`ugrep` for faster searches; fix sessions Opus 4.7 (1M context computed correctly); fix Bedrock+Opus 4.7 with thinking disabled

🔗 Claude Code CHANGELOG

दैनिक जीवन के लिए नए Claude connectors

23 अप्रैल — Anthropic अपने connectors के संग्रह को consumer applications तक विस्तारित करता है। जुलाई 2025 से, professional tools के लिए 200 से अधिक connectors उपलब्ध थे; यह अपडेट रोज़मर्रा की 15 सेवाएँ जोड़ता है।

Application	श्रेणी
AllTrails	Hiking
Audible	Audiobooks
Booking.com	Travel
Instacart	Online groceries
Intuit Credit Karma	Finance
Intuit TurboTax	Taxation
Resy	Restaurant reservations
Spotify	Music
StubHub	Ticketing
Taskrabbit	Home services
Thumbtack	Local professionals
TripAdvisor	Travel
Uber	Transport
Uber Eats	Meal delivery
Viator	Tourist activities

Claude अब बातचीत के context के अनुसार automatically relevant connectors सुझाता है। सभी plans पर उपलब्ध (free सहित), web, desktop और mobile (mobile beta में)। कोई paid placement या sponsored response नहीं; किसी app का data models को train करने के लिए उपयोग नहीं किया जाता।

🔗 दैनिक जीवन connectors

GitHub Copilot — तीन दिनों में सात अपडेट

GitHub Copilot ने 22 और 23 अप्रैल के बीच अपने changelog में सात प्रविष्टियाँ प्रकाशित कीं।

pull requests के लिए Chat (3 नई क्षमताएँ)

23 अप्रैल — Copilot Chat अब pull requests के लिए तीन क्षमताएँ एकीकृत करता है, github.com/copilot या diffs पर Copilot बटन के माध्यम से उपलब्ध (public preview) :

PR समझ (pull request understanding) : टिप्पणियाँ, बदलाव, commits और reviews संदर्भ के रूप में एकीकृत
PR review : मांग पर संरचित समीक्षा
PR summary : बदलावों का संक्षिप्त सारांश

🔗 Copilot Chat PR improvements

issues और projects से संचालित agent sessions

23 अप्रैल — cloud agent अब सीधे GitHub issues और project boards से संचालित किया जा सकता है: issue header में session indicator, progress side panel, projects की सभी views में default रूप से सक्षम sessions।

🔗 issues से agent sessions

web पर stack traces का संरचित debugging

23 अप्रैल — github.com पर Copilot Chat अब छह संरचित चरणों में stack traces का विश्लेषण मार्गदर्शित करता है: क्या विफल हुआ, क्यों, root cause, code से प्राप्त evidence, confidence स्तर, और अगले checks।

🔗 stack traces debugging

BYOK VS Code उपलब्ध (GA)

22 अप्रैल — Bring Your Own Key (अपना API key लाएँ) VS Code में Copilot Business और Enterprise उपयोगकर्ताओं के लिए general availability में है। Anthropic, Gemini, OpenAI, OpenRouter, Azure समर्थित हैं, साथ ही Ollama और Foundry Local के जरिए local models भी। billing सीधे चुने गए provider द्वारा की जाती है, Copilot quotas के बाहर।

🔗 BYOK VS Code GA

Copilot CLI के लिए Public preview में C++ Language Server

22 अप्रैल — Microsoft C++ Language Server (Visual Studio/VS Code का IntelliSense engine) Copilot CLI के लिए public preview में उपलब्ध है। यह सटीक semantic data देता है (symbol definitions, references, call hierarchies, types) iterative grep search के स्थान पर। आवश्यकताएँ: Copilot CLI authentication + compile_commands.json.

🔗 C++ Language Server

नई Business self-serve registrations निलंबित

22 अप्रैल — GitHub GitHub Free और GitHub Team plans पर Copilot Business के लिए self-serve में नई registrations निलंबित करता है। मौजूदा ग्राहकों पर कोई प्रभाव नहीं पड़ता।

🔗 Business self-serve pause

API metrics में `used_copilot_cloud_agent` field

23 अप्रैल — “coding agent” → “cloud agent” rebranding के बाद, metrics API user reports (1 day और 28 days rolling) में used_copilot_cloud_agent field जोड़ता है। पुराना field used_copilot_coding_agent 1 अगस्त 2026 तक बनाए रखा जाएगा।

🔗 cloud agent metrics

Gemini CLI v0.39.0 और सभी Ultra के लिए Deep Think

Gemini CLI v0.39.0

23 अप्रैल — Google Gemini CLI v0.39.0 जारी करता है, “Latest” के रूप में चिह्नित स्थिर संस्करण। मुख्य आकर्षण नई /memory inbox command है, जो कार्य सत्रों के दौरान CLI द्वारा स्वचालित रूप से निकाले गए skills की समीक्षा और पुष्टि करने के लिए है।

विशेषता	विवरण
`/memory inbox`	स्वचालित रूप से निकाले गए skills की समीक्षा
`invoke_subagent` unified	पुनर्गठित sub-agent tool एक एकल interface में
Compact formatting	compact mode में बेहतर पठनीयता
Plan Mode — confirmations	skills activation से पहले validation आवश्यक
हल्का startup	तेज startup के लिए हल्की parent process
JSONL streaming migration	chat session logging JSONL में

जोड़े गए keyboard shortcuts: Windows Terminal के लिए शब्द-दर-शब्द deletion हेतु Ctrl+Backspace, Ctrl+Shift+G।

🔗 Gemini CLI v0.39.0

सभी Ultra subscribers के लिए Deep Think खुला

22 अप्रैल — Google Deep Think mode (गहन reasoning, extended thinking) को Gemini Ultra के सभी subscribers के लिए खोलता है। यह mode पहले सीमित access में था; अब यह Gemini app (web और mobile) के tools menu से सीधे उपलब्ध है।

🔗 Tweet @GeminiApp

Kimi K2.6 : 300 उप-एजेंटों का swarm और open-weights benchmarks

Agent Swarm — 300 समानांतर उप-एजेंट

23 अप्रैल — Moonshot AI Kimi K2.6 Agent Swarm लॉन्च करता है: एक प्रणाली जो प्रति execution 4,000 steps पर समानांतर 300 उप-एजेंट तैनात कर सकती है, जबकि K2.5 के लिए 100 agents और 1,500 steps थे।

क्षमता	K2.5	K2.6
समानांतर उप-एजेंट	100	300
प्रति execution steps	1,500	4,000
output के प्रकार	Chat text	100+ वास्तविक files, 100,000 शब्दों की reviews, 20,000-पंक्ति datasets

उप-एजेंट विविध कौशलों को जोड़ते हैं: web research, data analysis, coding, long-form लेखन और visual generation। kimi.com/agent-swarm पर उपलब्ध।

🔗 Tweet @Kimi_Moonshot

Benchmarks : open-weights में नंबर 1

23 अप्रैल — Kimi K2.6 दो benchmarks पर open-weights models में पहला स्थान प्राप्त करता है: - Design Arena : Claude Opus 4.7 के समान प्रदर्शन-बैंड

MathArena open (Think मोड) : GLM 5.1 से आगे

🔗 Design Arena

SpaceXAI × Cursor और Grok Imagine

SpaceXAI × Cursor साझेदारी

22 अप्रैल — SpaceXAI (xAI/SpaceX के विलय से बनी इकाई) और Cursor ने मिलकर “दुनिया की सबसे शक्तिशाली कोडिंग और ज्ञान-काम IA” बनाने के लिए एक साझेदारी की घोषणा की। SpaceX सुपरकंप्यूटर Colossus (1 मिलियन H100 के समकक्ष) प्रदान करता है; Cursor उसे 2026 में बाद में $60 अरब में कंपनी खरीदने का अधिकार देता है, या केवल सहयोग के लिए $10 अरब का भुगतान करने का विकल्प देता है।

🔗 Tweet @SpaceX

Grok Imagine — साझा किए जा सकने वाले कस्टम templates

22 अप्रैल — SuperGrok और Premium+ सब्सक्राइबर अब Grok Imagine में कस्टम templates बना सकते हैं और उन्हें सार्वजनिक रूप से साझा कर सकते हैं।

🔗 Tweet @imagine

NVIDIA × Google Cloud Next

22 अप्रैल — Google Cloud Next (Las Vegas) में, NVIDIA और Google Cloud agentic IA infrastructure के आसपास कई प्रमुख प्रगतियों की घोषणा करते हैं।

घोषणा	विवरण
Instances A5X (Vera Rubin NVL72)	multisite cluster में 960,000 तक Rubin GPUs, token प्रति 10× कम लागत, megawatt प्रति 10× अधिक throughput
Gemini on Google Distributed Cloud	Blackwell और Blackwell Ultra GPUs के साथ preview — data sovereignty
Confidential VMs Blackwell	public cloud में पहली Blackwell confidential computing पेशकश
Nemotron 3 Super	Gemini Enterprise Agent Platform पर उपलब्ध
NeMo RL API	बड़े पैमाने पर managed reinforcement learning

🔗 Blog NVIDIA × Google Cloud

Kling AI Video 3.0 — native 4K mode

23 अप्रैल — Kling AI अपनी Video 3.0 श्रृंखला में native 4K mode लॉन्च करता है। 4K generation एक ही क्लिक में होती है, बिना किसी अतिरिक्त upscaling चरण के। दृश्य संगति (characters, texts, styles, lighting) उच्च-स्तरीय production के लिए native resolution में सुनिश्चित की जाती है। व्यवसायों के लिए fal.ai के माध्यम से भी उपलब्ध।

Kling AI साथ ही एक 4K Short Film Creative Contest आयोजित कर रहा है, एक वैश्विक प्रतियोगिता जो creators को नए mode के साथ बनाए गए short films जमा करने के लिए आमंत्रित करती है।

🔗 Tweet @Kling_ai

Clinicians के लिए ChatGPT और OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 अप्रैल — OpenAI ChatGPT for Clinicians लॉन्च करता है, जो संयुक्त राज्य अमेरिका में सत्यापित स्वास्थ्य पेशेवरों (चिकित्सक, nurse practitioners, medical assistants, pharmacists) के लिए एक मुफ़्त संस्करण है। सेवा में जटिल clinical प्रश्नों के लिए frontier models तक पहुँच, repetitive workflows (referral letters, prior authorizations) के लिए skills, real-time cited clinical research, और continuing education credits (CME) का स्वचालित generation शामिल है। HIPAA handling agreement के माध्यम से वैकल्पिक रूप से उपलब्ध है।

OpenAI HealthBench Professional भी प्रकाशित करता है, एक खुला benchmark जो वास्तविक clinical tasks पर IA का मूल्यांकन करता है (700,000+ doctor-evaluated responses)। ChatGPT for Clinicians में GPT-5.4, web access के साथ non-time-limited परिस्थितियों में, इस benchmark पर मानव doctors से बेहतर प्रदर्शन करता है।

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 अप्रैल — OpenAI Privacy Filter प्रकाशित करता है, एक open-weight (Apache 2.0) मॉडल जो text में personally identifiable information (PII) का पता लगाने और उसे छिपाने के लिए है। मॉडल स्थानीय रूप से चलता है (कोई data server को नहीं भेजा जाता), 128K tokens of context का समर्थन करता है, और PII-Masking-300k benchmark पर 97.43% F1 score प्राप्त करता है।

विशेषता	मान
Architecture	bidirectional token classifier (constrained Viterbi decoding)
Size	1.5B total parameters, 50M active
Context	128,000 tokens
License	Apache 2.0 (Hugging Face + GitHub)
F1	corrected PII-Masking-300k पर 97.43%

कवर की गई PII श्रेणियाँ: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (पासवर्ड और API keys)।

🔗 OpenAI Privacy Filter

Perplexity और Cohere

Perplexity ने Kimi K2.6 को एकीकृत किया

23 अप्रैल — Moonshot AI का Kimi K2.6 अब Perplexity के सभी Pro और Max subscribers के लिए उपलब्ध है।

🔗 Tweet @perplexity_ai

Cohere — vLLM में production-ready W4A8

22 अप्रैल — Cohere अपने W4A8 inference (weights के लिए 4-bit quantization, activations के लिए 8 bits) को vLLM में एकीकृत करने की घोषणा करता है। Hopper GPU पर W4A16 की तुलना में परिणाम: पहला token आने तक का समय (Time To First Token) +58% और output token प्रति समय (Time Per Output Token) +45%। यह integration उत्पादन में बड़े पैमाने पर MoE Command A models को प्राथमिकता से लक्षित करता है।

🔗 Blog Cohere W4A8

संक्षेप

Suno संगीत App Store में नंबर 1

21 अप्रैल — Suno, IA music generation platform, App Store की music category में पहला स्थान प्राप्त करती है। CEO Mikey Shulman घोषणा करते हैं: « संगीत का भविष्य ऐसा है जहाँ हर कोई बनाने का आनंद लेता है। »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 अप्रैल — Anthropic, Anthropic Interviewer के माध्यम से Claude users के एक random sample पर संचालित एक monthly survey, Anthropic Economic Index Survey लॉन्च करता है। उद्देश्य IA के आर्थिक प्रभाव पर qualitative data इकट्ठा करना है: delegated tasks, productivity gains, role changes। परिणाम भविष्य की Anthropic Economic Index reports को feed करेंगे।

🔗 Annonce enquête

Anthropic — production में MCP agents: आंकड़े

22 अप्रैल — Anthropic का एक technical article production agents के लिए MCP के लाभों को दस्तावेज़ करता है: MCP SDKs प्रति माह 300 मिलियन downloads से अधिक हैं, tool search tool definition tokens को 85% कम करती है, और programmatic tool calling जटिल multi-step workflows पर token usage को 37% कम करता है।

🔗 Blog MCP production agents

OpenAI — Responses API में WebSockets : 40% latency लाभ

22 अप्रैल — OpenAI का एक retrospective article बताता है कि Responses API में WebSocket mode agent loops की latency को 40% तक कैसे कम करता है। persistent connection पिछली responses की स्थिति का memory cache बनाए रखता है, जिससे हर call पर पूरे इतिहास को फिर से process करने से बचा जाता है। पहले से production में: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%)।

🔗 Article WebSockets

Perplexity Research — retrieval-augmented model training

22 अप्रैल — Perplexity अपने SFT + RL pipeline (Supervised Fine-Tuning + Reinforcement Learning) पर research प्रकाशित करता है ताकि search response quality में सुधार हो सके। मुख्य परिणाम: post-trained Qwen models कम लागत पर GPT models की factuality तक पहुँचते हैं।

🔗 Research Perplexity

इसका अर्थ क्या है

23 अप्रैल 2026 दो अभिसारी प्रवृत्तियाँ दर्शाता है। एक ओर, GPT-5.5 पुष्टि करता है कि OpenAI ने agentic benchmarks (Terminal-Bench, ARC-AGI-2, OSWorld) पर फिर से बढ़त हासिल कर ली है, उन कई महीनों के बाद जब Claude Opus 4.7 हावी था। SWE-Bench Pro पर अंतर अभी भी कम है, जहाँ Anthropic लाभ बनाए हुए है — यह संकेत कि दोनों प्रयोगशालाएँ समान प्राथमिक use cases पर सहमत हैं।

दूसरी ओर, यह दिन persistent agents with memory के युग में प्रवेश को चिह्नित करता है: OpenAI Workspace Agents, Anthropic Managed Agents Memory और Kimi K2.6 Agent Swarm एक साथ अलग-अलग approaches (Slack integration, filesystem-based, sub-agents का swarm) के साथ आ रहे हैं, लेकिन लक्ष्य एक ही है — agent को याद रहे, वह सीखे और निरंतर supervision के बिना कार्य करे। Rakuten के आँकड़े (-97% errors, -27% cost) प्रभाव का पहला औद्योगिक माप देते हैं।

GitHub Copilot GitHub.com में deep integration की अपनी strategy जारी रखता है (PR chat, issues से agent sessions, structured stack traces) और साथ ही BYOK के माध्यम से बाहर की ओर भी खुलता है। BYOK VS Code GA संकेत देता है कि Copilot उतना ही interface के रूप में position कर रहा है जितना model के रूप में।

स्रोत

यह दस्तावेज़ मॉडल gpt-5.4-mini का उपयोग करके fr संस्करण से hi भाषा में अनुवादित किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, https://gitlab.com/jls42/ai-powered-markdown-translator देखें