खोजें

Claude Code Desktop पुनर्रचना, Agents SDK OpenAI, Gemini 3.1 Flash TTS और Mac ऐप

Claude Code Desktop पुनर्रचना, Agents SDK OpenAI, Gemini 3.1 Flash TTS और Mac ऐप

15 अप्रैल की दिनभर की खबरें: Anthropic ने parallel agents पर केंद्रित Claude Code desktop app का पूर्ण redesign लॉन्च किया, OpenAI ने native sandbox और standardized agentic primitives के साथ Agents SDK v0.14.0 जारी किया, Google ने साथ ही Gemini 3.1 Flash TTS (Elo 1 211) और एक मुफ्त macOS desktop app की घोषणा की। इसी दौरान, Mistral ने Studio में MCP Connectors खोले, Anthropic ने alignment पर दो महत्वपूर्ण studies प्रकाशित कीं, और automotive advertising में एक पहली घटना हुई: पहला Mazda spot जो पूरी तरह AI द्वारा बनाया गया था।


Claude Code Desktop : parallel agents के लिए पुनर्रचना

14 अप्रैल — Anthropic ने Claude Code desktop app का पूर्ण redesign लॉन्च किया, जिसे parallel में कई sessions चलाने के लिए डिज़ाइन किया गया है।

“We’ve redesigned Claude Code on desktop. You can now run multiple Claude sessions side by side from the same app.”

🇮🇳 हमने desktop पर Claude Code को फिर से डिज़ाइन किया है। अब आप एक ही application से एक साथ कई Claude sessions parallel में चला सकते हैं।@claudeai on X

विशेषताविवरण
Sessions sidebarसभी active और recent sessions, status, project या environment के अनुसार filterable
Side chat (⌘+; / Ctrl+;)मुख्य session को pollute किए बिना उससे एक conversation branch करना
Integrated terminalऐप छोड़े बिना tests या builds चलाना
In-app file editorफ़ाइलें सीधे खोलना, संशोधित करना और सहेजना
Rebuilt diff viewerबड़े changesets पर बेहतर performance
Expanded previewpreview panel में HTML, PDF, local servers
Drag-and-drop layoutterminal, preview, diff viewer और chat को freely व्यवस्थित करना
CLI plugins parityplugins desktop app में identically काम करते हैं
SSH extended to MacLinux के अलावा, sessions अब दूरस्थ machines की ओर point कर सकते हैं
3 view modesVerbose, Normal, Summary — full detail से केवल results तक

Sessions sidebar सबसे महत्वपूर्ण बदलाव है: यह सभी active sessions को एक ही जगह केंद्रीकृत करती है, जिससे एक साथ कई agents के साथ काम करने का तरीका मूल रूप से बदल जाता है। Side chat (⌘+; on Mac, Ctrl+; on Linux/Windows) मुख्य session के context को pollute किए बिना एक अतिरिक्त conversation शुरू करने देता है — किसी त्वरित प्रश्न को पूछने या किसी hypothesis को परखने के लिए उपयोगी।

macOS पर SSH विस्तार Linux के साथ एक उल्लेखनीय अंतर को पूरा करता है: sessions अब Mac से ही दूरस्थ machines की ओर point कर सकते हैं, जिससे ऐसे workflows संभव होते हैं जहाँ code किसी remote server पर चलता है लेकिन नियंत्रण local interface से बना रहता है।

अब Claude Code के सभी users के लिए Pro, Max, Team, Enterprise plans और Claude API के माध्यम से उपलब्ध।

🔗 Claude ब्लॉग — Desktop पर Claude Code का पुनर्रचना 🔗 ऐप डाउनलोड करें


OpenAI Agents SDK v0.14.0 : native sandbox और agentic primitives

15 अप्रैल — OpenAI अपने Agents SDK (openai-agents>=0.14.0) का एक महत्वपूर्ण evolution प्रकाशित करता है। यह घोषणा इस SDK को production में agents बनाने के लिए standard infrastructure के रूप में स्थापित करती है।

समृद्ध native harness

SDK अब primitives का एक सेट शामिल करता है जो अन्य अग्रणी agentic runtimes की क्षमताओं के साथ संरेखित होता है:

Primitiveविवरण
MCP (tool use)MCP protocol के माध्यम से tools का invocation
AGENTS.mdconfiguration file के माध्यम से custom instructions
shell toolcommands का निष्पादन (code execution)
apply patch toolpatch द्वारा files का संपादन
Skillsक्षमताओं का क्रमिक प्रकटीकरण
Configurable memoryagent की long-term state management

बाड़ाबंद निष्पादन वातावरण (sandbox)

अब agents नियंत्रित environments (sandboxes) में अपने file system, dependencies और tools के साथ चल सकते हैं। Orchestrator (harness) और compute के बीच पृथक्करण तीन उद्देश्यों के लिए डिज़ाइन किया गया है: code-generated environments में credentials की सुरक्षा करना, container के गिरने पर checkpoint और rehydration के माध्यम से durable execution सक्षम करना, और parallel में कई sandboxes के साथ scaling संभव बनाना।

समर्थित native sandbox providers: Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel.

Manifest abstraction के माध्यम से storage: AWS S3, Google Cloud Storage, Azure Blob Storage, Cloudflare R2.

उपलब्धता

पहले Python, TypeScript अगली version में नियोजित। अग्रिम परीक्षण करने वाली कंपनियों में: Oscar Health, LexisNexis, Thomson Reuters, Zoom.

🔗 OpenAI की आधिकारिक घोषणा


Gemini 3.1 Flash TTS : audio tags और Elo 1 211

15 अप्रैल — Google Gemini 3.1 Flash TTS लॉन्च करता है, जो उसका अब तक का सबसे expressive और controllable text-to-speech मॉडल है।

मुख्य नई बात audio tags का परिचय है: input text में सीधे शामिल natural-language commands जो vocal style, pace और tone को नियंत्रित करती हैं। [excitement] से घिरा एक passage उत्साह के साथ बोला जाएगा, जबकि [explanatory] वाला passage एक pedagogical tone अपनाएगा। यह दृष्टिकोण developer को सटीक audio experiences रचने के लिए एक « director » की भूमिका में रखता है।

विशेषताविवरण
Audio tagsपाठ में natural-language commands
समर्थित भाषाएँ70+ (जिनमें 24 उच्च-गुणवत्ता assessed)
Multi-speaker dialogueNative
Watermarkingजनित सभी audio पर SynthID integrated
Elo score1 211 (Artificial Analysis TTS Leaderboard)

Reference Artificial Analysis TTS ranking पर 1 211 के Elo score के साथ — जो blind test में हजारों human preferences को मापता है — मॉडल को गुणवत्ता/लागत संतुलन के लिए « सबसे आकर्षक quadrant » में रखा गया है।

Google AI Studio में, तीन advanced controls उपलब्ध हैं: Scene direction (environment और performance instructions को परिभाषित करना), Speaker-level specificity (प्रत्येक character के लिए unique audio profiles), और Seamless export (projects के बीच vocal consistency बनाए रखने के लिए API code में parameters export करना)।

जनित सभी audio को SynthID, Google के digital watermark, द्वारा imperceptibly चिह्नित किया जाता है।

उपलब्धता :

  • Developers : Gemini API और Google AI Studio के माध्यम से preview
  • Enterprises : Vertex AI पर preview
  • Workspace users : Google Vids के माध्यम से

🔗 blog.google लेख — Gemini 3.1 Flash TTS


Mac के लिए Gemini App : native desktop client

15 अप्रैल — Google macOS के लिए Gemini app लॉन्च करता है, जो macOS 15 और उससे ऊपर के सभी users के लिए निःशुल्क उपलब्ध है।

विशेषताविवरण
Global shortcutकिसी भी application से Option + Space
Window sharinglocal documents, code, data पर context
Image generationNano Banana integration
Video generationVeo integration
उपलब्धतानिःशुल्क, macOS 15+, वैश्विक

ऐप को Option + Space के माध्यम से किसी भी screen से access किया जा सकता है, जिससे अपना workflow छोड़े बिना Gemini से प्रश्न पूछना संभव होता है। यह active window साझा कर local files, tables, charts या code blocks पर तुरंत context प्रदान कर सकती है।

Google इस संस्करण को एक « first version » के रूप में प्रस्तुत करता है जो एक personal और proactive desktop assistant की नींव रखता है, और आने वाले महीनों में और घोषणाएँ अपेक्षित हैं।

🔗 blog.google लेख — macOS के लिए Gemini App


Claude Code v2.1.108 और v2.1.109 : session recap, 1h caching, thinking

14-15 अप्रैल — दो दिनों में Claude Code के दो नए versions।

v2.1.108 कई कार्यात्मक सुधार लाता है:

विशेषताविवरण
Session recap/recap या /config, absence के बाद स्वचालित रूप से trigger होता है। CLAUDE_CODE_ENABLE_AWAY_SUMMARY के माध्यम से force किया जा सकता है
Prompt caching 1hTTL 1h (API key, Bedrock, Vertex, Foundry) के लिए variable ENABLE_PROMPT_CACHING_1HFORCE_PROMPT_CACHING_5M TTL 5 min force करता है
Skill tool via slash commandsमॉडल built-in commands (/init, /review, /security-review) को Skill tool के माध्यम से invoke कर सकता है
/undo alias/undo अब /rewind के लिए एक alias है
/model सुधारमॉडल बदलने से पहले चेतावनी (अगला response cache के बिना पूरा history फिर से पढ़ता है)
/resume सुधारवर्तमान directory की sessions पर default; सभी projects देखने के लिए Ctrl+A

/recap feature विशेष रूप से parallel agents के संदर्भ में उपयोगी है: जब कोई background में छोड़ी गई session पर लौटता है, Claude पिछली interaction के बाद क्या हुआ उसका सारांश देता है।

v2.1.109 extended thinking mode के लिए interface में एक सुधार लाता है: progress indicator एक rotating hint के साथ घूमता है ताकि यह बेहतर दिखे कि मॉडल चिंतन चरण में है।

🔗 Claude Code CHANGELOG


Anthropic : स्वचालित alignment researchers (PGR 0.97)

14 अप्रैल — Anthropic Fellows program के हिस्से के रूप में, एक मौलिक प्रयोग: क्या Claude Opus 4.6 का उपयोग alignment research को तेज़ करने के लिए किया जा सकता है?

“weak-to-strong supervision” समस्या (weak-to-strong supervision) आने वाली चुनौती का एक proxy है: हम अपने से अधिक बुद्धिमान models की supervision कैसे करें? यह प्रयोग एक strong model (Qwen 3-4B-Base) और एक weak model को « teacher » (Qwen 1.5-0.5B-Chat) के रूप में उपयोग करता है। performance gap recovered (PGR) metric मापता है कि strong model किस हद तक weak teacher की सीमाओं से आगे निकलता है।

सेटअप : tools (sandbox, shared forum, storage, score server) से सुसज्जित Claude Opus 4.6 की 9 copies 5 दिनों तक parallel में काम करती हैं। विविध दृष्टिकोणों को प्रोत्साहित करने के लिए प्रत्येक instance को थोड़ा अलग starting point दिया जाता है।

संकेतकमान
Human baseline (7 days, 4 methods)PGR 0.23
5 दिनों के बाद automated researchers (800h कुल)PGR 0.97
कुल लागत~18 000 ( 22(~22/घंटा प्रति instance)
Math generalizationPGR 0.94
Code generalizationPGR 0.47 (baseline का दोगुना)
Production test (Claude Sonnet 4)कोई महत्वपूर्ण improvement नहीं

Researchers स्पष्ट करते हैं कि यह परिणाम यह नहीं दर्शाता कि Claude एक « generalist alignment scientist » है — चुनी गई समस्या automation के लिए असाधारण रूप से उपयुक्त है (एकल objective measure)। लेकिन प्रयोग दिखाता है कि Claude alignment में experimentation की गति को कई गुना बढ़ा सकता है, और starting points की diversity महत्वपूर्ण है। Code और data open source में उपलब्ध हैं।

🔗 Anthropic ब्लॉग — Automated Alignment Researchers


Nature में प्रकाशित LLMs में subliminal learning

15 अप्रैल — Anthropic और Owain Evans द्वारा सह-लेखित एक research article Nature पत्रिका में LLMs के subliminal learning phenomenon पर प्रकाशित हुआ है।

“Research we co-authored on subliminal learning—how LLMs can pass on traits like preferences or misalignment through hidden signals in data—was published today in Nature.”

🇮🇳 हमारे द्वारा सह-लिखा गया subliminal learning पर शोध — कैसे LLMs data में छिपे संकेतों के माध्यम से preferences या misalignment जैसे traits प्रसारित कर सकते हैं — आज Nature में प्रकाशित हुआ है।@AnthropicAI on X

यह paper दिखाता है कि LLMs traits (जैसे « उल्लुओं को पसंद करना ») को surface पर neutral दिखने वाले data के माध्यम से स्थानांतरित कर सकते हैं (उदाहरण के लिए, trait से असंबंधित numbers sequences)। यह छिपी हुई transmission phenomenon सुरक्षा के लिए महत्वपूर्ण प्रश्न उठाती है: एक model training data के माध्यम से preferences या misalignment फैला सकता है, बिना इसके कि direct inspection से यह पकड़ा जा सके। जुलाई 2025 में एक preprint प्रकाशित किया गया था।

🔗 Nature लेख — Subliminal Learning


GPT-5.4-Cyber और TAC कार्यक्रम का विस्तार

14 अप्रैल — OpenAI ने अपने Trusted Access for Cyber (TAC) कार्यक्रम के विस्तार की घोषणा की है, जिसमें अब सत्यापित व्यक्तिगत रक्षकों की हजारों संख्या और महत्वपूर्ण सॉफ़्टवेयर की सुरक्षा के लिए ज़िम्मेदार सैकड़ों टीमें शामिल हैं।

एक नया मॉडल, GPT-5.4-Cyber, अब कार्यक्रम के उच्चतम स्तरों के उपयोगकर्ताओं के लिए उपलब्ध है। यह GPT-5.4 का एक संस्करण है, जिसे रक्षात्मक साइबरसुरक्षा के लिए अनुकूलित किया गया है, जिसमें वैध उपयोगों के लिए अस्वीकृति-सीमा कम की गई है और बाइनरी रिवर्स इंजीनियरिंग की एक विशिष्ट क्षमता है (स्रोत कोड तक पहुँच के बिना संकलित सॉफ़्टवेयर का विश्लेषण)।

TAC कार्यक्रम तीन स्तरों में संचालित होता है:

  1. व्यक्तिगत उपयोगकर्ता: chatgpt.com/cyber पर पहचान सत्यापन
  2. व्यवसाय: OpenAI प्रतिनिधि के माध्यम से टीम पहुँच
  3. उच्च स्तर (GPT-5.4-Cyber तक पहुँच): उन्नत प्रमाणीकरण + रुचि की अभिव्यक्ति

Codex Security, जिसे 2026 की शुरुआत में लॉन्च किया गया था, पहले ही 3,000 से अधिक गंभीर और उच्च-प्राथमिकता वाली कमज़ोरियों को ठीक करने में योगदान दे चुका है।

🔗 OpenAI की आधिकारिक घोषणा


Gemini Personal Intelligence : वैश्विक रोलआउट

15 अप्रैल — Gemini ऐप की Personal Intelligence सुविधा अब अंतरराष्ट्रीय स्तर पर विस्तार कर रही है। पहले केवल संयुक्त राज्य अमेरिका तक सीमित, यह अब दुनिया भर के Google AI Ultra, Pro और Plus ग्राहकों के लिए उपलब्ध है, और जल्द ही मुफ्त उपयोगकर्ताओं तक भी पहुँचाने की योजना है।

Personal Intelligence, Gemini को उपयोगकर्ता के Google ऐप्स — Search, Gmail, Google Photos और YouTube — से जुड़कर वैयक्तिकृत और संदर्भानुकूल उत्तर देने में सक्षम बनाता है। Google ने इस सप्ताह के दौरान Google Chrome में भी Personal Intelligence के आने की घोषणा की है।

🔗 Tweet @GeminiApp


Studio में Mistral Connectors MCP (Public Preview)

15 अप्रैल — Mistral AI ने Mistral Studio में Connectors को सार्वजनिक पूर्वावलोकन (Public Preview) के रूप में लॉन्च किया है, जिससे MCP प्रोटोकॉल के माध्यम से एंटरप्राइज़ डेटा स्रोतों को जोड़ा जा सकता है।

एक connector, MCP पर आधारित एक एकीकृत प्रणाली को पुन: प्रयोज्य इकाई के रूप में समाहित करता है। एक बार पंजीकृत होने पर, इसे Studio में govern और monitor किया जाता है, और यह किसी भी conversation, agent या workflow के लिए एक native tool बन जाता है।

विशेषताविवरण
अंतर्निर्मित और कस्टम MCPsसभी मॉडल और agent अनुरोधों के लिए उपलब्ध
सीधे tool callstools को कब और कैसे invoke किया जाए, इस पर सटीक नियंत्रण
human-in-the-loop validationtools के निष्पादन से पहले configurable approval flow
programmatic accessAPI के माध्यम से connectors का निर्माण, संशोधन, सूचीकरण और हटाना
केंद्रीयकृत registryसभी Mistral apps (Le Chat, AI Studio, Vibe जल्द ही) में उपलब्ध

समर्थित integrations: CRM, knowledge bases, productivity tools, GitHub, web search.

🔗 Mistral घोषणा — Connectors


पूरी तरह से AI-निर्मित पहला ऑटोमोटिव सार्वजनिक विज्ञापन

15 अप्रैल — Luma Agents ने पूरी तरह से AI-निर्मित पहले Mazda विज्ञापन को संचालित किया। स्वतंत्र रचनात्मक एजेंसी Boundless (Johannesburg) ने Luma का उपयोग करके एक अभियान बनाया, जिसमें MX-5 की कई पीढ़ियाँ और ब्रांड की दशकों लंबी कहानी कहने की परंपरा एक साथ लाई गई। अवधारणा से लेकर अंतिम अनुमोदन तक कुल समय: दो सप्ताह से कम।

Luma इस मामले को AI-native creative workflows के उदाहरण के रूप में प्रस्तुत करता है: तेज़ उत्पादन, बिना रचनात्मक दृष्टि से समझौता किए।

🔗 Luma Labs — Boundless × Mazda


छोटी घोषणाएँ

Kling AI Skill (15 अप्रैल) — Kling अपने API का एक one-stop encapsulation लॉन्च कर रहा है, ताकि उसे AI agents में सीधे एकीकृत किया जा सके। एजेंट Text/Image-to-Video generation, 4K image generation और scene-to-scene consistency तक पहुँच सकते हैं, बिना जटिल configuration के। Claude Code, Cursor, Codex, Copilot के साथ संगत। 🔗 Kling AI Skill प्रलेखन

OpenCode में Qwen (15 अप्रैल) — Qwen3.6-Plus और Qwen3.5-Plus अब coding tool OpenCode में उपलब्ध हैं। Qwen3.5-Plus, Qwen3.6-Plus से 3x सस्ता है; दोनों मॉडल images का समर्थन करते हैं और zero data retention प्रदान करते हैं। 🔗 Tweet @Alibaba_Qwen

Copilot Cloud Agent — चयनात्मक सक्रियण (15 अप्रैल) — GitHub Enterprise admins अब custom properties (custom properties) के माध्यम से संगठन-वार Copilot Cloud Agent को चयनात्मक रूप से सक्रिय कर सकते हैं। इस नीति को API के माध्यम से प्रबंधित करने के लिए तीन नए REST endpoints उपलब्ध हैं। 🔗 GitHub Changelog


इसका क्या मतलब है

15 अप्रैल का दिन एक अभिसरण को दर्शाता है: बड़े खिलाड़ी अपने development environments को मानकीकृत agentic infrastructure से लैस कर रहे हैं। Claude Code Desktop, OpenAI Agents SDK और Mistral Connectors एक ही तर्क साझा करते हैं — कई agents को समानांतर में orchestrate करना, उन्हें primitives (MCP, AGENTS.md, shell, files) देना और उन्हें एक isolated execution environment प्रदान करना।

सबसे महत्वपूर्ण घोषणा Claude Code Desktop का redesign है: sessions sidebar और side chat, कई agents के साथ एक साथ काम करने के तरीके को बदल देते हैं — ऐसा उपयोग जो धीरे-धीरे उन developers के लिए मानक बन रहा है जो AI पर निर्भर हैं।

Research की बात करें तो, subliminal learning पर Nature प्रकाशन और automated alignment researchers के प्रयोग (18,000 $ के लिए PGR 0.97) संकेत देते हैं कि Anthropic दीर्घकालिक जोखिमों की समझ में समानांतर निवेश कर रहा है — तात्कालिक उत्पादकता और संरचनात्मक सुरक्षा के बीच एक संतुलन।


स्रोत

इस दस्तावेज़ का अनुवाद फ्र संस्करण से hi भाषा में gpt-5.4-mini मॉडल का उपयोग करके किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, https://github.com/jls42/ai-powered-markdown-translator देखें