बहुभाषी स्वचालन : मेरा AI-Powered Markdown Translator

प्रोजेक्ट देखें → GitHub

मुझे आपको अपना AI-Powered Markdown Translator प्रोजेक्ट प्रस्तुत करते हुए खुशी हो रही है, यह एक ओपन-सोर्स Python स्क्रिप्ट है जो मेरे ब्लॉग की Markdown फ़ाइलों और मेरे GitHub रिपॉज़िटरी के कुछ README/दस्तावेज़ों का स्वतः अनुवाद करती है। OpenAI, Mistral AI, Anthropic (Claude) और Google Gemini जैसे अत्याधुनिक AI मॉडलों को एकीकृत करके, यह उपकरण लेखों, README और तकनीकी दस्तावेज़ों का 14 भाषाओं में अनुवाद करता है, और साथ ही उनकी संरचना और फ़ॉर्मैटिंग को बनाए रखता है। यह परियोजना स्वचालन, AI एकीकरण और विश्वसनीयता इंजीनियरिंग में मेरी क्षमताओं को उजागर करती है, साथ ही तकनीकी सामग्री को सभी के लिए सुलभ बनाने के प्रति मेरे जुनून को भी।

यह सिर्फ़ एक स्क्रिप्ट नहीं है: यह मेरी विशेषज्ञता और अधिक समावेशी डिजिटल दुनिया के लिए मेरे दृष्टिकोण का प्रमाण है।

यह परियोजना क्यों?

Markdown फ़ाइलें मेरे डिजिटल पारिस्थितिकी तंत्र के लिए अनिवार्य हैं: इनमें मेरे ब्लॉग लेख, ट्यूटोरियल और ओपन-सोर्स दस्तावेज़ शामिल हैं। उनके अनुवाद को स्वचालित करके, मैं अपनी सामग्री को वैश्विक दर्शकों के लिए सुलभ बनाता हूँ। मेरा ब्लॉग अब इस स्क्रिप्ट की बदौलत 14 भाषाओं में उपलब्ध है — लगभग 1,800 अनुवादित संस्करण (लगभग के हिसाब से, FR स्रोतों को छोड़कर) आज jls42.org पर ऑनलाइन हैं, और हर प्रकाशन के साथ यह संख्या बढ़ती जाती है।

v1.9 (मई 2026) एक महत्वपूर्ण मोड़ है: कोड को सहजता से (vibe coding) सह-एआई (Claude Code + Codex) में विकसित किया गया, और इसे औद्योगिक-स्तर की गुणवत्ता स्टैक (14 hooks, 229 tests, SonarCloud, AI-सहायता प्राप्त PR समीक्षा) द्वारा सुरक्षित किया गया, ताकि हर पंक्ति हाथ से न पढ़े जाने पर भी साफ़ कोड सुनिश्चित किया जा सके।

स्क्रिप्ट के क्रियान्वयन के ठोस उदाहरण यहाँ हैं:

यह jls42.org ब्लॉग 14 भाषाओं में — पूरी बहुभाषी संपादकीय अनुभव (लेख, प्रोजेक्ट, AI-समाचार) इसी स्क्रिप्ट द्वारा निर्मित है। आप उदाहरण के लिए साइट के जर्मन, जापानी, चीनी, स्पेनिश या अरबी संस्करण देख सकते हैं — अनुवादित हर संपादकीय सामग्री इससे होकर गुज़री है (इंटरफ़ेस तत्व, हालांकि, Astro के मूल i18n सिस्टम से आते हैं)।
प्रोजेक्ट का अपना README GitHub पर 14 भाषाओं में अनुवादित है। उदाहरण: अंग्रेज़ी, स्पेनिश, चीनी।

यह परियोजना दिखाती है कि AI व्यावहारिक समस्याओं को हल करते हुए पहुँच-योग्यता को भी बढ़ावा दे सकती है।

मेरी क्षमताएँ प्रकाश में

यह परियोजना मेरी तकनीकी विशेषज्ञता का एक प्रदर्शन है। यह जिन बातों को उजागर करती है, वे यहाँ हैं:

बहु-मॉडल ऑर्केस्ट्रेशन : विकास के लिए Claude Code Opus में, Codex बैकअप समाधान (fallback) के रूप में, योजनाओं को चुनौती देने के लिए GPT-5.5 reasoning extra-high, /pr-review-toolkit merge से पहले समीक्षा के लिए
कई AI API का एकीकरण : 4 जुड़े हुए providers (OpenAI, Mistral AI, Claude, Gemini), प्रत्येक API की विशिष्टताओं के अनुसार अनुकूलन के साथ (finish_reason / stop_reason का प्रबंधन, उत्तर प्रारूप, टोकन सीमाएँ)
विश्वसनीयता इंजीनियरिंग : दो-स्तरीय पोस्ट-ट्रांसलेशन सत्यापन (नियतात्मक verbatim-लीक-रोधी + संभाव्य langdetect), मूक विफलताओं (silent failures) का पता लगाना, स्पष्ट स्थिति-आधारित परिणाम
औद्योगिक गुणवत्ता स्टैक : 14 स्वचालित hooks (ruff, mypy, shellcheck, Opengrep SAST, pip-audit, Lizard…), 229 unittest परीक्षण, SonarCloud के 11 badges, साथ में Codacy और CodeFactor
ओपन-सोर्स भावना : GitHub पर उपलब्ध, GPLv3, 14 भाषाओं में अनूदित README

ये पहलू लंबे समय तक शक्तिशाली, विश्वसनीय और बनाए रखने योग्य उपकरण बनाने की मेरी क्षमता को दर्शाते हैं।

मुख्य विशेषताएँ

यह स्क्रिप्ट जो कुछ प्रदान करती है, वह यहाँ है:

Multi-Provider : 4 APIs का समर्थन (OpenAI, Mistral AI, Claude, Gemini)
2026 मॉडल : डिफ़ॉल्ट रूप से GPT-5.5, Claude Sonnet 4.6, Gemini 3.1 Pro
किफ़ायती मोड (--eco) : तेज़ और कम लागत वाले मॉडल
एकल फ़ाइल (--file) : पूरे directory के बजाय केवल एक फ़ाइल का अनुवाद
नाम संरक्षण (--keep_filename) : मूल नाम और एक्सटेंशन को बनाए रखता है (Astro, Hugo आदि के लिए आदर्श)
.env समर्थन : .env फ़ाइल से API keys का स्वचालित लोडिंग
.mdx फ़ाइलों का समर्थन : सामान्य .md फ़ाइलों के अलावा
फ़ॉर्मैटिंग संरक्षण : code blocks, inline code, links और metadata जस के तस रहते हैं

v1.9 में नई बातें (मई 2026) :

पोस्ट-ट्रांसलेशन सत्यापन : मूक विफलताओं (silent failures) का स्वचालित पता लगाना — लक्ष्य भाषा की जाँच, सभी providers पर truncation का अवरोध।
बहु-स्थिति नोट (--note_position, --note_format) : ऊपर, नीचे या दोनों; पुराना (legacy) स्वरूप या मार्कर फ़ॉर्मैट (marker format) GitHub की embedded card (embed card) के साथ संगत।
--news मोड को मज़बूत किया गया : v1.8 में पहले ही स्रोत EN उद्धरणों को placeholders के माध्यम से सुरक्षित करने के लिए प्रस्तुत, v1.9 में इस मोड को कड़ी पोस्ट-रिस्टोरेशन सत्यापन मिलता है (बचा हुआ placeholder = त्रुटि, मूल उद्धरण और attribution URL की जाँच, target/source flags का नियंत्रण) — ब्लॉग के सभी ia-actualites लेखों पर उपयोग किया गया।

प्रदाता	गुणवत्ता (डिफ़ॉल्ट)	किफ़ायती (`--eco`)
OpenAI	`gpt-5.5`	`gpt-5.4-mini`
Claude	`claude-sonnet-4-6`	`claude-haiku-4-5-20251001`
Mistral	`mistral-large-latest`	`mistral-small-latest`
Gemini	`gemini-3.1-pro-preview`	`gemini-3.1-flash-lite-preview`

v1.0 → v1.9 का विकास

संस्करण	तिथि	मुख्य योगदान
1.0–1.4	2024	OpenAI, फिर Mistral, फिर Claude
1.5	sept. 2024	क्लाइंट्स का refactor, 2024 मॉडल (gpt-4o, claude-3.5-sonnet)
1.6	janv. 2026	2026 मॉडल (gpt-5, claude-sonnet-4-5, gemini-3-pro), Gemini, `--eco`, एकल फ़ाइल (`--file`)
1.7	janv. 2026	`--keep_filename`, `.env`, inline code संरक्षित
1.8	mars 2026	डिफ़ॉल्ट GPT-5.4 मॉडल, `--news` मोड citation placeholders के साथ
1.9	mai 2026	पोस्ट-ट्रांसलेशन सत्यापन, बहु-स्थिति नोट, 14 hooks + 229 tests + AI समीक्षा वाली गुणवत्ता स्टैक

सहज विकास + सुरक्षा-घेर

पूरा v1.9 सह-एआई में लिखा गया है। मेरा workflow: Claude Code (केवल Opus) कोड लिखता है, Opus के अटकने या उपयोग विंडो भर जाने पर Codex काम संभालता है, GPT-5.5 (reasoning extra-high) निष्पादन से पहले योजनाओं को चुनौती देता है, और /pr-review-toolkit:review-pr skill हर merge से पहले PR पढ़ता है। मैं खुद कोड नहीं पढ़ता। इस विकास मोड को प्रोडक्शन में व्यवहार्य बनाने के लिए, मैंने अनुपातिक सुरक्षा-घेरों की एक स्टैक में निवेश किया है:

14 hooks स्वचालित (pre-commit + pre-push) : shellcheck, ruff, prettier, detect-secrets, Lizard CCN, mypy, Opengrep SAST, pip-audit, unittest
229 unittest परीक्षण (~v1.9 के नए कोड पर 98 % कवरेज)
व्यावहारिक परीक्षण : विभिन्न README पर multi-repo, ब्लॉग पर उत्पाद का आंतरिक उपयोग (dogfooding) (production = live test), दृश्य रेंडरिंग की जाँच (browser या Markdown preview)
3 बाहरी प्लेटफ़ॉर्म : SonarCloud (11 badges), Codacy, CodeFactor
/pr-review-toolkit:review-pr skill : merge से पहले multi-agent AI-सहायता प्राप्त समीक्षा
दो-स्तरीय पोस्ट-ट्रांसलेशन सत्यापन : नियतात्मक (verbatim-लीक-रोधी) + संभाव्य (langdetect)

मकसद यह साबित करना नहीं है कि हम पारंपरिक इंजीनियरिंग जानते हैं। बात यह है कि हमारे पास कोई विकल्प नहीं है: बिना समीक्षा के AI कोड को ज़्यादा सुरक्षा-घेर चाहिए, कम नहीं। यह अनुशासन तकनीकी गहन विश्लेषण में विस्तार से बताया गया है।

इस ब्लॉग पर प्रोडक्शन में

यह प्रोजेक्ट खुद अपना अनुवाद करता है: इसका README 14 भाषाओं में है, और यह इस ब्लॉग के सभी बहुभाषी संस्करण उत्पन्न करता है।

ब्लॉग लेख, 4 प्रोजेक्ट और 98 ia-actualites लेख मिलकर FR स्रोतों को छोड़कर लगभग 1,800 अनूदित संस्करण बनाते हैं (सामग्री के अनुसार भाषा कवरेज बदलती रहती है)
--news मोड स्रोत EN उद्धरणों को सुरक्षित रखने के लिए ia-actualites लेखों पर लगातार उपयोग किया जाता है
v1.9 सुरक्षा-घेर मई 2026 से सक्रिय है: दोहरी पोस्ट-ट्रांसलेशन सत्यापन की शुरुआत के बाद से, मैंने target-language की कोई silent failure नहीं पाई है
मेटा-संगति : वह पृष्ठ जिसे आप अंग्रेज़ी, जर्मन, जापानी… में पढ़ रहे हैं, इस स्क्रिप्ट द्वारा अनूदित है

आगे जानने के लिए

यह समझने के लिए कि यह v1.9 कैसे बनाई गई (नई बातें विस्तार में, multi-model workflow, और साफ़ कोड लक्ष्य रखने के लिए लागू सुरक्षा-घेर), पूर्ण तकनीकी deep-dive देखें।

और एक पहले की release के साथ स्वर की तुलना करने के लिए, v1.5 पर 2024 का लेख अधिक पारंपरिक release notes प्रारूप का अनुसरण करता है।

इसे खुद आज़माइए

प्रोजेक्ट को GitHub पर देखें, अपनी Markdown फ़ाइलों के साथ इसे आज़माइए, और अपनी प्रतिक्रियाएँ साझा कीजिए। आपके विचार इसे और बेहतर बनाने में मेरी मदद करते हैं!

संपर्क : contact@jls42.org