AI कौशल और टूल्स क्या हैं

AI एजेंट पैकेज्ड क्षमताओं का उपयोग कैसे करते हैं — function calls से लेकर MCP servers तक। LLMs के साथ बिल्ड करने वाले डेवलपर्स के लिए व्यावहारिक मार्गदर्शिका।

7 मिनट पढ़ें अपडेट किया गया: अप्रैल 2026

🔧 स्किल क्या है?

AI एजेंट्स के संदर्भ में, एक skill (जिसे यह भी कहा जाता है tool or function) एक पैकेज्ड, पुन: प्रयोज्य क्षमता है जिसे एक LLM संदर्भ विंडो के बाहर दुनिया के साथ इंटरैक्ट करने के लिए इनवोक कर सकता है। स्किल्स भाषा समझ और वास्तविक दुनिया की क्रिया के बीच की खाई को पाटते हैं।

प्रत्येक स्किल के चार घटक होते हैं:

  • Name — एक अनोखा पहचानकर्ता जिसे मॉडल स्किल का संदर्भ देने के लिए उपयोग करता है (उदा., web_search)
  • Description — यह क्या करता है और कब उपयोग करें इसका प्राकृतिक भाषा में वर्णन; LLM इसे पढ़ता है यह तय करने के लिए कि कब स्किल को कॉल करना है
  • इनपुट स्कीमा — आर्गुमेंट्स की संरचित परिभाषा (JSON Schema); मॉडल कार्य के आधार पर इन्हें भरता है
  • Implementation — वास्तविक कोड जो चलता है: एक API कॉल, डेटाबेस क्वेरी, शेल कमांड, या कोई अन्य ऑपरेशन

उदाहरण: A get_weather स्किल का विवरण "किसी शहर के लिए वर्तमान मौसम लाता है", स्वीकार करता है { "city": "string" } को इनपुट के रूप में, और एक मौसम API को कॉल करता है। LLM कभी भी API कुंजी या HTTP कॉल नहीं देखता — इसे सिर्फ परिणाम टेक्स्ट के रूप में वापस मिलता है।

⚙️ कैसे टूल कॉलिंग काम करती है

जब एक एजेंट के पास स्किल्स की पहुंच होती है, तो LLM उन्हें सीधे कॉल नहीं करता — यह requests एक कॉल उत्पन्न करके एक संरचित आउटपुट भेजता है। रनटाइम (आपका एप्लिकेशन कोड) वास्तविक कॉल को निष्पादित करता है और परिणाम लौटाता है। यहाँ पूरा चक्र है:

  1. टूल पंजीकरण — आपका कोड मॉडल को उपलब्ध स्किल्स की एक सूची उनके विवरण और स्कीमाओं के साथ भेजता है
  2. मॉडल तर्क — LLM कार्य और उपलब्ध टूल्स पढ़ता है, तय करता है कौन सा टूल कॉल करना है और किन आर्गुमेंट्स के साथ
  3. टूल कॉल अनुरोध — मॉडल एक संरचित "tool call" संदेश आउटपुट करता है (उदा., { "tool": "web_search", "args": { "query": "current Gemini models" } })
  4. Execution — आपका रनटाइम कोड वास्तविक फ़ंक्शन, API, या सेवा को कॉल करता है
  5. रिज़ल्ट इंजेक्शन — परिणाम वार्तालाप संदर्भ में वापस जोड़ दिया जाता है
  6. लगातार तर्क — मॉडल परिणाम पढ़ता है और या तो कोई और टूल कॉल करता है, फॉलो-अप पूछता है, या अंतिम उत्तर उत्पन्न करता है

यह लूप एक ही टर्न में कई बार दोहरा सकता है। एक जटिल एजेन्टिक कार्य अंतिम उत्तर देने से पहले अनुक्रम में 10–20 टूल्स को कॉल कर सकता है।

📊 Skills बनाम Plugins बनाम MCP Servers

टर्मिनोलॉजी तेजी से विकसित हुई है। ऐतिहासिक रूप से ये अवधारणाएँ कैसे संबंधित हैं:

EraNameयह कैसे काम करता थाStatus
2023 ChatGPT Plugins OpenAPI स्पेक के साथ उपयोगकर्ता-स्थाप्य एक्सटेंशन्स; ChatGPT ने इन्हें HTTP के माध्यम से कॉल किया डिप्रिकेटेड (GPTs + tools द्वारा प्रतिस्थापित)
2023 OpenAI Function Calling API-स्तर JSON Schema परिभाषाएँ; मॉडल संरचित फ़ंक्शन कॉल आउटपुट करता है, आपका कोड इसे निष्पादित करता है सक्रिय — पुनः नामित "tool use"
2023– Tool Use / Skills फ़ंक्शन कॉलिंग जैसा ही; Anthropic ने "tool use" शब्द बनाया, अन्य इसे "skills" या "functions" कहते हैं सक्रिय — वर्तमान मानक
2024– MCP Servers मानकीकृत प्रोटोकॉल (Anthropic, Dec 2024) टूल सर्वरों को पैकेज और वितरित करने के लिए; कोई भी MCP क्लाइंट किसी भी MCP सर्वर से कनेक्ट कर सकता है सक्रिय — बढ़ता हुआ इकोसिस्टम

मुख्य अंतर: परंपरागत टूल उपयोग आपके एप्लिकेशन कोड में इनलाइन परिभाषित होता है। MCP सर्वर स्टैंडअलोन प्रोसेस होते हैं जो एक मानकीकृत प्रोटोकॉल पर टूल्स एक्सपोज़ करते हैं — जिससे उन्हें अलग-अलग AI क्लाइंट्स (Claude Desktop, Cursor, VS Code, कस्टम एजेंट्स) के बीच पुन: उपयोग योग्य बनाया जा सके। और पढ़ें: MCP क्या है.

🗂️ टूल श्रेणियाँ और जोखिम स्तर

सभी टूल्स एक जैसा जोखिम नहीं रखते। जोखिम स्तर के अनुसार समूहित करना आपके एजेंट के लिए परिभाषित करने में मदद करता है एक्शन स्पेस और मानव-इन-द-लूप चेकपॉइंट्स कहाँ जोड़ने हैं:

CategoryExamplesRiskRecommendation
Read-only web_search, read_file, get_weather, list_dir Low स्वायत्त रूप से अनुमति दें; सभी कॉल्स का लॉग रखें
लेख (लोकल) write_file, create_dir, edit_code Medium एक सैंडबॉक्सड वर्कस्पेस डायरेक्टरी तक सीमा निर्धारित करें
नेटवर्क / बाहरी send_email, post_to_slack, call_api मध्यम–उच्च अपरिवर्तनीय भेजने के लिए HITL अनुमोदन
OS / Shell run_command, execute_script, install_package High कंटेनरीकृत वातावरण तक सीमित करें; HITL आवश्यक
Destructive delete_file, drop_table, revoke_access Critical हमेशा स्पष्ट मानव पुष्टि आवश्यक करें

🏗️ एक अच्छे स्किल की संरचना

एक स्किल के लिए सबसे महत्वपूर्ण डिज़ाइन निर्णय इसका description. LLM निर्णय लेने के लिए विवरण पढ़ता है — खराब लिखी गई विवरण गलत टूल चयन, मिस कॉल या अस्पष्ट आर्गुमेंट्स का कारण बन सकती है।

एक विवरण प्रभावी क्या बनाता है

  • जब उपयोग करना है इसके बारे में स्पष्ट रहें — "जब उपयोगकर्ता वास्तविक समय के डेटा या वर्तमान घटनाओं के बारे में पूछता है तो इस टूल का उपयोग करें" "वेब खोज करता है" की तुलना में बेहतर है
  • कहें कि यह क्या नहीं करता — "30 दिनों से पुराने ऐतिहासिक डेटा लौटाता नहीं है"
  • आउटपुट फ़ॉर्मेट का वर्णन करें — "शीर्षक, url, और स्निपेट फ़ील्ड्स के साथ खोज परिणामों की JSON ऐरे लौटाता है"
  • इसे 200 शब्दों से कम रखें — ~200 टोकन से लंबी विवरण बहुत से टूल्स पंजीकृत होने पर मॉडल के ध्यान को ओवरवेल्म कर सकती है

स्कीमा डिज़ाइन सिद्धांत

  • अनिवार्य बनाम वैकल्पिक — केवल तब फ़ील्ड्स को आवश्यक के रूप में चिह्नित करें जब वास्तव में आवश्यक हों; डिफ़ॉल्ट्स के साथ वैकल्पिक फ़ील्ड्स मॉडल त्रुटियों को कम करते हैं
  • सीमित मानों के लिए enums का उपयोग करें"format": {"enum": ["json", "markdown", "text"]} हैलुसिनेटेड मानों को रोकता है
  • आइडम्पोटेंट टूल्स को प्राथमिकता दें — जो टूल्स सुरक्षित रूप से पुन: प्रयास किए जा सकते हैं (रीड, लुकअप) वे वन-शॉट कार्रवाईयों (सेंड, डिलीट) से अधिक सुरक्षित होते हैं
  • संरचित डेटा लौटाएँ — JSON रिस्पॉन्सेस मॉडल के लिए अनस्ट्रक्चर्ड टेक्स्ट ब्लॉब्स की तुलना में तर्क करने में आसान होते हैं

💡 वास्तविक दुनिया के उदाहरण

स्किल नामयह क्या करता हैमुख्य आर्गुमेंट्सRisk
web_search एक सर्च इंजन से क्वेरी करें और शीर्ष परिणाम लौटाएं query: string, num_results?: number Low
read_file वर्कस्पेस डायरेक्टरी से फ़ाइल पढ़ें path: string, offset?: number, limit?: number Low
write_file एक फ़ाइल बनाएं या ओवरराइट करें path: string, content: string Medium
run_tests प्रोजेक्ट टेस्ट सूट को निष्पादित करें और परिणाम लौटाएं filter?: string Medium
browser_screenshot एक URL पर नेविगेट करें और स्क्रीनशॉट लौटाएं url: string Medium
send_email एक या अधिक प्राप्तकर्ताओं को ईमेल भेजें to: string[], subject: string, body: string उच्च — हमेशा HITL
run_shell किसी भी शेल कमांड को निष्पादित करें command: string, cwd?: string उच्च — सैंडबॉक्स आवश्यक

✅ सर्वोत्तम प्रथाएँ

न्यूनतम अनुमतियाँ

प्रत्येक एजेंट को केवल वे टूल्स दें जिनकी उसे उसके विशिष्ट कार्य के लिए आवश्यकता है। एक एजेंट जो FAQ प्रश्नों का उत्तर देता है उसे की ज़रूरत नहीं है write_file or send_email. जितना छोटा एक्शन स्पेस होगा, यदि एजेंट को गलत दिशा में मोड़ा जाता है तो विस्फोट क्षेत्र उतना ही छोटा होगा। देखें: अति-अधिकारिता.

सभी टूल कॉल का ऑडिट करें

हर टूल कॉल को उसके आर्गुमेंट्स और परिणाम के साथ लॉग करें। यह डिबगिंग, लागत विभाजन, और असामान्य व्यवहार का पता लगाने में सक्षम बनाता है (उदा., एक एजेंट पढ़ रहा है ~/.ssh/ जबकि उसे केवल प्रोजेक्ट डायरेक्टरी तक पहुंचनी चाहिए)। AgentOps प्लेटफ़ॉर्म जैसे LangSmith इसे आसान बनाते हैं।

अपरिवर्तनीय क्रियाओं के लिए मानव-इन-द-लूप

कोई भी कार्रवाई जो उलटा करना कठिन या असंभव हो — संदेश भेजना, डेटा हटाना, खरीदारी करना — को निष्पादन से पहले स्पष्ट मानव पुष्टि की आवश्यकता होनी चाहिए। अपने एजेंट रनटाइम में HITL चेकपॉइंट्स बनाएं, सिर्फ प्रॉम्प्ट में नहीं। प्रॉम्प्ट ओवरराइड हो सकते हैं; कोड नहीं।

टूल पॉइज़निंग से सावधान रहें

यदि आप एजेंट्स को गतिशील रूप से MCP सर्वरों की स्थापना या खोज की अनुमति देते हैं, तो एक दुर्भावनापूर्ण सर्वर एक विवरण के साथ छिपे निर्देशों वाले टूल को पंजीकृत कर सकता है। किसी भी टूल को एजेंट के रजिस्ट्री में जोड़ने से पहले हमेशा टूल विवरणों की समीक्षा करें। देखें: टूल पॉइज़निंग.

स्पष्ट त्रुटि वापसी लिखें

जब एक टूल विफल होता है, तो मॉडल को पुनर्प्रयास करने, फॉलबैक टूल उपयोग करने, या उपयोगकर्ता को गरिमापूर्वक सूचित करने के लिए पर्याप्त संदर्भ के साथ एक संरचित त्रुटि लौटाएँ — न कि एक कच्चा अपवाद स्टैक ट्रेस। उदाहरण: { "error": "rate_limited", "retry_after": 5 }. एक अच्छी तरह से वर्णित त्रुटि एजेंट को पुन: प्रयास करने, एक फॉलबैक टूल का उपयोग करने, या उपयोगकर्ता को विनम्रता से सूचित करने देती है।