Claude Code Desktop पुनर्रचना, Agents SDK OpenAI, Gemini 3.1 Flash TTS और Mac ऐप

15 अप्रैल की दिनभर की खबरें: Anthropic ने parallel agents पर केंद्रित Claude Code desktop app का पूर्ण redesign लॉन्च किया, OpenAI ने native sandbox और standardized agentic primitives के साथ Agents SDK v0.14.0 जारी किया, Google ने साथ ही Gemini 3.1 Flash TTS (Elo 1 211) और एक मुफ्त macOS desktop app की घोषणा की। इसी दौरान, Mistral ने Studio में MCP Connectors खोले, Anthropic ने alignment पर दो महत्वपूर्ण studies प्रकाशित कीं, और automotive advertising में एक पहली घटना हुई: पहला Mazda spot जो पूरी तरह AI द्वारा बनाया गया था।

Claude Code Desktop : parallel agents के लिए पुनर्रचना

14 अप्रैल — Anthropic ने Claude Code desktop app का पूर्ण redesign लॉन्च किया, जिसे parallel में कई sessions चलाने के लिए डिज़ाइन किया गया है।

“We’ve redesigned Claude Code on desktop. You can now run multiple Claude sessions side by side from the same app.”

🇮🇳 हमने desktop पर Claude Code को फिर से डिज़ाइन किया है। अब आप एक ही application से एक साथ कई Claude sessions parallel में चला सकते हैं। — @claudeai on X

विशेषता	विवरण
Sessions sidebar	सभी active और recent sessions, status, project या environment के अनुसार filterable
Side chat (⌘+; / Ctrl+;)	मुख्य session को pollute किए बिना उससे एक conversation branch करना
Integrated terminal	ऐप छोड़े बिना tests या builds चलाना
In-app file editor	फ़ाइलें सीधे खोलना, संशोधित करना और सहेजना
Rebuilt diff viewer	बड़े changesets पर बेहतर performance
Expanded preview	preview panel में HTML, PDF, local servers
Drag-and-drop layout	terminal, preview, diff viewer और chat को freely व्यवस्थित करना
CLI plugins parity	plugins desktop app में identically काम करते हैं
SSH extended to Mac	Linux के अलावा, sessions अब दूरस्थ machines की ओर point कर सकते हैं
3 view modes	Verbose, Normal, Summary — full detail से केवल results तक

Sessions sidebar सबसे महत्वपूर्ण बदलाव है: यह सभी active sessions को एक ही जगह केंद्रीकृत करती है, जिससे एक साथ कई agents के साथ काम करने का तरीका मूल रूप से बदल जाता है। Side chat (⌘+; on Mac, Ctrl+; on Linux/Windows) मुख्य session के context को pollute किए बिना एक अतिरिक्त conversation शुरू करने देता है — किसी त्वरित प्रश्न को पूछने या किसी hypothesis को परखने के लिए उपयोगी।

macOS पर SSH विस्तार Linux के साथ एक उल्लेखनीय अंतर को पूरा करता है: sessions अब Mac से ही दूरस्थ machines की ओर point कर सकते हैं, जिससे ऐसे workflows संभव होते हैं जहाँ code किसी remote server पर चलता है लेकिन नियंत्रण local interface से बना रहता है।

अब Claude Code के सभी users के लिए Pro, Max, Team, Enterprise plans और Claude API के माध्यम से उपलब्ध।

🔗 Claude ब्लॉग — Desktop पर Claude Code का पुनर्रचना 🔗 ऐप डाउनलोड करें

OpenAI Agents SDK v0.14.0 : native sandbox और agentic primitives

15 अप्रैल — OpenAI अपने Agents SDK (openai-agents>=0.14.0) का एक महत्वपूर्ण evolution प्रकाशित करता है। यह घोषणा इस SDK को production में agents बनाने के लिए standard infrastructure के रूप में स्थापित करती है।

समृद्ध native harness

SDK अब primitives का एक सेट शामिल करता है जो अन्य अग्रणी agentic runtimes की क्षमताओं के साथ संरेखित होता है:

Primitive	विवरण
MCP (tool use)	MCP protocol के माध्यम से tools का invocation
AGENTS.md	configuration file के माध्यम से custom instructions
`shell` tool	commands का निष्पादन (code execution)
`apply patch` tool	patch द्वारा files का संपादन
Skills	क्षमताओं का क्रमिक प्रकटीकरण
Configurable memory	agent की long-term state management

बाड़ाबंद निष्पादन वातावरण (sandbox)

अब agents नियंत्रित environments (sandboxes) में अपने file system, dependencies और tools के साथ चल सकते हैं। Orchestrator (harness) और compute के बीच पृथक्करण तीन उद्देश्यों के लिए डिज़ाइन किया गया है: code-generated environments में credentials की सुरक्षा करना, container के गिरने पर checkpoint और rehydration के माध्यम से durable execution सक्षम करना, और parallel में कई sandboxes के साथ scaling संभव बनाना।

समर्थित native sandbox providers: Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel.

Manifest abstraction के माध्यम से storage: AWS S3, Google Cloud Storage, Azure Blob Storage, Cloudflare R2.

उपलब्धता

पहले Python, TypeScript अगली version में नियोजित। अग्रिम परीक्षण करने वाली कंपनियों में: Oscar Health, LexisNexis, Thomson Reuters, Zoom.

🔗 OpenAI की आधिकारिक घोषणा

Gemini 3.1 Flash TTS : audio tags और Elo 1 211

15 अप्रैल — Google Gemini 3.1 Flash TTS लॉन्च करता है, जो उसका अब तक का सबसे expressive और controllable text-to-speech मॉडल है।

मुख्य नई बात audio tags का परिचय है: input text में सीधे शामिल natural-language commands जो vocal style, pace और tone को नियंत्रित करती हैं। [excitement] से घिरा एक passage उत्साह के साथ बोला जाएगा, जबकि [explanatory] वाला passage एक pedagogical tone अपनाएगा। यह दृष्टिकोण developer को सटीक audio experiences रचने के लिए एक « director » की भूमिका में रखता है।

विशेषता	विवरण
Audio tags	पाठ में natural-language commands
समर्थित भाषाएँ	70+ (जिनमें 24 उच्च-गुणवत्ता assessed)
Multi-speaker dialogue	Native
Watermarking	जनित सभी audio पर SynthID integrated
Elo score	1 211 (Artificial Analysis TTS Leaderboard)

Reference Artificial Analysis TTS ranking पर 1 211 के Elo score के साथ — जो blind test में हजारों human preferences को मापता है — मॉडल को गुणवत्ता/लागत संतुलन के लिए « सबसे आकर्षक quadrant » में रखा गया है।

Google AI Studio में, तीन advanced controls उपलब्ध हैं: Scene direction (environment और performance instructions को परिभाषित करना), Speaker-level specificity (प्रत्येक character के लिए unique audio profiles), और Seamless export (projects के बीच vocal consistency बनाए रखने के लिए API code में parameters export करना)।

जनित सभी audio को SynthID, Google के digital watermark, द्वारा imperceptibly चिह्नित किया जाता है।

उपलब्धता :

Developers : Gemini API और Google AI Studio के माध्यम से preview
Enterprises : Vertex AI पर preview
Workspace users : Google Vids के माध्यम से

🔗 blog.google लेख — Gemini 3.1 Flash TTS

Mac के लिए Gemini App : native desktop client

15 अप्रैल — Google macOS के लिए Gemini app लॉन्च करता है, जो macOS 15 और उससे ऊपर के सभी users के लिए निःशुल्क उपलब्ध है।

विशेषता	विवरण
Global shortcut	किसी भी application से `Option + Space`
Window sharing	local documents, code, data पर context
Image generation	Nano Banana integration
Video generation	Veo integration
उपलब्धता	निःशुल्क, macOS 15+, वैश्विक

ऐप को Option + Space के माध्यम से किसी भी screen से access किया जा सकता है, जिससे अपना workflow छोड़े बिना Gemini से प्रश्न पूछना संभव होता है। यह active window साझा कर local files, tables, charts या code blocks पर तुरंत context प्रदान कर सकती है।

Google इस संस्करण को एक « first version » के रूप में प्रस्तुत करता है जो एक personal और proactive desktop assistant की नींव रखता है, और आने वाले महीनों में और घोषणाएँ अपेक्षित हैं।

🔗 blog.google लेख — macOS के लिए Gemini App

Claude Code v2.1.108 और v2.1.109 : session recap, 1h caching, thinking

14-15 अप्रैल — दो दिनों में Claude Code के दो नए versions।

v2.1.108 कई कार्यात्मक सुधार लाता है:

विशेषता	विवरण
Session recap	`/recap` या `/config`, absence के बाद स्वचालित रूप से trigger होता है। `CLAUDE_CODE_ENABLE_AWAY_SUMMARY` के माध्यम से force किया जा सकता है
Prompt caching 1h	TTL 1h (API key, Bedrock, Vertex, Foundry) के लिए variable `ENABLE_PROMPT_CACHING_1H`। `FORCE_PROMPT_CACHING_5M` TTL 5 min force करता है
Skill tool via slash commands	मॉडल built-in commands (`/init`, `/review`, `/security-review`) को Skill tool के माध्यम से invoke कर सकता है
`/undo` alias	`/undo` अब `/rewind` के लिए एक alias है
`/model` सुधार	मॉडल बदलने से पहले चेतावनी (अगला response cache के बिना पूरा history फिर से पढ़ता है)
`/resume` सुधार	वर्तमान directory की sessions पर default; सभी projects देखने के लिए `Ctrl+A`

/recap feature विशेष रूप से parallel agents के संदर्भ में उपयोगी है: जब कोई background में छोड़ी गई session पर लौटता है, Claude पिछली interaction के बाद क्या हुआ उसका सारांश देता है।

v2.1.109 extended thinking mode के लिए interface में एक सुधार लाता है: progress indicator एक rotating hint के साथ घूमता है ताकि यह बेहतर दिखे कि मॉडल चिंतन चरण में है।

🔗 Claude Code CHANGELOG

Anthropic : स्वचालित alignment researchers (PGR 0.97)

14 अप्रैल — Anthropic Fellows program के हिस्से के रूप में, एक मौलिक प्रयोग: क्या Claude Opus 4.6 का उपयोग alignment research को तेज़ करने के लिए किया जा सकता है?

“weak-to-strong supervision” समस्या (weak-to-strong supervision) आने वाली चुनौती का एक proxy है: हम अपने से अधिक बुद्धिमान models की supervision कैसे करें? यह प्रयोग एक strong model (Qwen 3-4B-Base) और एक weak model को « teacher » (Qwen 1.5-0.5B-Chat) के रूप में उपयोग करता है। performance gap recovered (PGR) metric मापता है कि strong model किस हद तक weak teacher की सीमाओं से आगे निकलता है।

सेटअप : tools (sandbox, shared forum, storage, score server) से सुसज्जित Claude Opus 4.6 की 9 copies 5 दिनों तक parallel में काम करती हैं। विविध दृष्टिकोणों को प्रोत्साहित करने के लिए प्रत्येक instance को थोड़ा अलग starting point दिया जाता है।

संकेतक	मान
Human baseline (7 days, 4 methods)	PGR 0.23
5 दिनों के बाद automated researchers (800h कुल)	PGR 0.97
कुल लागत	~18 000 $(~22$ /घंटा प्रति instance)
Math generalization	PGR 0.94
Code generalization	PGR 0.47 (baseline का दोगुना)
Production test (Claude Sonnet 4)	कोई महत्वपूर्ण improvement नहीं

Researchers स्पष्ट करते हैं कि यह परिणाम यह नहीं दर्शाता कि Claude एक « generalist alignment scientist » है — चुनी गई समस्या automation के लिए असाधारण रूप से उपयुक्त है (एकल objective measure)। लेकिन प्रयोग दिखाता है कि Claude alignment में experimentation की गति को कई गुना बढ़ा सकता है, और starting points की diversity महत्वपूर्ण है। Code और data open source में उपलब्ध हैं।

🔗 Anthropic ब्लॉग — Automated Alignment Researchers

Nature में प्रकाशित LLMs में subliminal learning

15 अप्रैल — Anthropic और Owain Evans द्वारा सह-लेखित एक research article Nature पत्रिका में LLMs के subliminal learning phenomenon पर प्रकाशित हुआ है।

“Research we co-authored on subliminal learning—how LLMs can pass on traits like preferences or misalignment through hidden signals in data—was published today in Nature.”

🇮🇳 हमारे द्वारा सह-लिखा गया subliminal learning पर शोध — कैसे LLMs data में छिपे संकेतों के माध्यम से preferences या misalignment जैसे traits प्रसारित कर सकते हैं — आज Nature में प्रकाशित हुआ है। — @AnthropicAI on X

यह paper दिखाता है कि LLMs traits (जैसे « उल्लुओं को पसंद करना ») को surface पर neutral दिखने वाले data के माध्यम से स्थानांतरित कर सकते हैं (उदाहरण के लिए, trait से असंबंधित numbers sequences)। यह छिपी हुई transmission phenomenon सुरक्षा के लिए महत्वपूर्ण प्रश्न उठाती है: एक model training data के माध्यम से preferences या misalignment फैला सकता है, बिना इसके कि direct inspection से यह पकड़ा जा सके। जुलाई 2025 में एक preprint प्रकाशित किया गया था।

🔗 Nature लेख — Subliminal Learning

GPT-5.4-Cyber और TAC कार्यक्रम का विस्तार

14 अप्रैल — OpenAI ने अपने Trusted Access for Cyber (TAC) कार्यक्रम के विस्तार की घोषणा की है, जिसमें अब सत्यापित व्यक्तिगत रक्षकों की हजारों संख्या और महत्वपूर्ण सॉफ़्टवेयर की सुरक्षा के लिए ज़िम्मेदार सैकड़ों टीमें शामिल हैं।

एक नया मॉडल, GPT-5.4-Cyber, अब कार्यक्रम के उच्चतम स्तरों के उपयोगकर्ताओं के लिए उपलब्ध है। यह GPT-5.4 का एक संस्करण है, जिसे रक्षात्मक साइबरसुरक्षा के लिए अनुकूलित किया गया है, जिसमें वैध उपयोगों के लिए अस्वीकृति-सीमा कम की गई है और बाइनरी रिवर्स इंजीनियरिंग की एक विशिष्ट क्षमता है (स्रोत कोड तक पहुँच के बिना संकलित सॉफ़्टवेयर का विश्लेषण)।

TAC कार्यक्रम तीन स्तरों में संचालित होता है:

व्यक्तिगत उपयोगकर्ता: chatgpt.com/cyber पर पहचान सत्यापन
व्यवसाय: OpenAI प्रतिनिधि के माध्यम से टीम पहुँच
उच्च स्तर (GPT-5.4-Cyber तक पहुँच): उन्नत प्रमाणीकरण + रुचि की अभिव्यक्ति

Codex Security, जिसे 2026 की शुरुआत में लॉन्च किया गया था, पहले ही 3,000 से अधिक गंभीर और उच्च-प्राथमिकता वाली कमज़ोरियों को ठीक करने में योगदान दे चुका है।

🔗 OpenAI की आधिकारिक घोषणा

Gemini Personal Intelligence : वैश्विक रोलआउट

15 अप्रैल — Gemini ऐप की Personal Intelligence सुविधा अब अंतरराष्ट्रीय स्तर पर विस्तार कर रही है। पहले केवल संयुक्त राज्य अमेरिका तक सीमित, यह अब दुनिया भर के Google AI Ultra, Pro और Plus ग्राहकों के लिए उपलब्ध है, और जल्द ही मुफ्त उपयोगकर्ताओं तक भी पहुँचाने की योजना है।

Personal Intelligence, Gemini को उपयोगकर्ता के Google ऐप्स — Search, Gmail, Google Photos और YouTube — से जुड़कर वैयक्तिकृत और संदर्भानुकूल उत्तर देने में सक्षम बनाता है। Google ने इस सप्ताह के दौरान Google Chrome में भी Personal Intelligence के आने की घोषणा की है।

🔗 Tweet @GeminiApp

Studio में Mistral Connectors MCP (Public Preview)

15 अप्रैल — Mistral AI ने Mistral Studio में Connectors को सार्वजनिक पूर्वावलोकन (Public Preview) के रूप में लॉन्च किया है, जिससे MCP प्रोटोकॉल के माध्यम से एंटरप्राइज़ डेटा स्रोतों को जोड़ा जा सकता है।

एक connector, MCP पर आधारित एक एकीकृत प्रणाली को पुन: प्रयोज्य इकाई के रूप में समाहित करता है। एक बार पंजीकृत होने पर, इसे Studio में govern और monitor किया जाता है, और यह किसी भी conversation, agent या workflow के लिए एक native tool बन जाता है।

विशेषता	विवरण
अंतर्निर्मित और कस्टम MCPs	सभी मॉडल और agent अनुरोधों के लिए उपलब्ध
सीधे tool calls	tools को कब और कैसे invoke किया जाए, इस पर सटीक नियंत्रण
human-in-the-loop validation	tools के निष्पादन से पहले configurable approval flow
programmatic access	API के माध्यम से connectors का निर्माण, संशोधन, सूचीकरण और हटाना
केंद्रीयकृत registry	सभी Mistral apps (Le Chat, AI Studio, Vibe जल्द ही) में उपलब्ध

समर्थित integrations: CRM, knowledge bases, productivity tools, GitHub, web search.

🔗 Mistral घोषणा — Connectors

पूरी तरह से AI-निर्मित पहला ऑटोमोटिव सार्वजनिक विज्ञापन

15 अप्रैल — Luma Agents ने पूरी तरह से AI-निर्मित पहले Mazda विज्ञापन को संचालित किया। स्वतंत्र रचनात्मक एजेंसी Boundless (Johannesburg) ने Luma का उपयोग करके एक अभियान बनाया, जिसमें MX-5 की कई पीढ़ियाँ और ब्रांड की दशकों लंबी कहानी कहने की परंपरा एक साथ लाई गई। अवधारणा से लेकर अंतिम अनुमोदन तक कुल समय: दो सप्ताह से कम।

Luma इस मामले को AI-native creative workflows के उदाहरण के रूप में प्रस्तुत करता है: तेज़ उत्पादन, बिना रचनात्मक दृष्टि से समझौता किए।

🔗 Luma Labs — Boundless × Mazda

छोटी घोषणाएँ

Kling AI Skill (15 अप्रैल) — Kling अपने API का एक one-stop encapsulation लॉन्च कर रहा है, ताकि उसे AI agents में सीधे एकीकृत किया जा सके। एजेंट Text/Image-to-Video generation, 4K image generation और scene-to-scene consistency तक पहुँच सकते हैं, बिना जटिल configuration के। Claude Code, Cursor, Codex, Copilot के साथ संगत। 🔗 Kling AI Skill प्रलेखन

OpenCode में Qwen (15 अप्रैल) — Qwen3.6-Plus और Qwen3.5-Plus अब coding tool OpenCode में उपलब्ध हैं। Qwen3.5-Plus, Qwen3.6-Plus से 3x सस्ता है; दोनों मॉडल images का समर्थन करते हैं और zero data retention प्रदान करते हैं। 🔗 Tweet @Alibaba_Qwen

Copilot Cloud Agent — चयनात्मक सक्रियण (15 अप्रैल) — GitHub Enterprise admins अब custom properties (custom properties) के माध्यम से संगठन-वार Copilot Cloud Agent को चयनात्मक रूप से सक्रिय कर सकते हैं। इस नीति को API के माध्यम से प्रबंधित करने के लिए तीन नए REST endpoints उपलब्ध हैं। 🔗 GitHub Changelog

इसका क्या मतलब है

15 अप्रैल का दिन एक अभिसरण को दर्शाता है: बड़े खिलाड़ी अपने development environments को मानकीकृत agentic infrastructure से लैस कर रहे हैं। Claude Code Desktop, OpenAI Agents SDK और Mistral Connectors एक ही तर्क साझा करते हैं — कई agents को समानांतर में orchestrate करना, उन्हें primitives (MCP, AGENTS.md, shell, files) देना और उन्हें एक isolated execution environment प्रदान करना।

सबसे महत्वपूर्ण घोषणा Claude Code Desktop का redesign है: sessions sidebar और side chat, कई agents के साथ एक साथ काम करने के तरीके को बदल देते हैं — ऐसा उपयोग जो धीरे-धीरे उन developers के लिए मानक बन रहा है जो AI पर निर्भर हैं।

Research की बात करें तो, subliminal learning पर Nature प्रकाशन और automated alignment researchers के प्रयोग (18,000 $ के लिए PGR 0.97) संकेत देते हैं कि Anthropic दीर्घकालिक जोखिमों की समझ में समानांतर निवेश कर रहा है — तात्कालिक उत्पादकता और संरचनात्मक सुरक्षा के बीच एक संतुलन।

स्रोत

इस दस्तावेज़ का अनुवाद फ्र संस्करण से hi भाषा में gpt-5.4-mini मॉडल का उपयोग करके किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, https://github.com/jls42/ai-powered-markdown-translator देखें