Multimodal AI Agents और Tool Use का परिचय — LearnFlat

Multimodal AI Agents और Tool Use का परिचय

शुरू से ही दस्तावेज़ों का विश्लेषण करने, छवियों की व्याख्या करने और बाहरी tools के साथ बातचीत करने में सक्षम बुद्धिमान AI agents बनाना सीखें।

⏱ 1 घंटे 15 मिनट 📚 9 पाठ 🎧 ऑडियो संस्करण

इस कोर्स के बारे में

Artificial intelligence का अगला विकास टेक्स्ट से परे है। Multimodal agents अब छवियों का विश्लेषण कर सकते हैं, जटिल दस्तावेज़ों को पढ़ सकते हैं और बाहरी tools का उपयोग करके कार्रवाई कर सकते हैं। इस बुनियादी लिखित पाठ्यक्रम में, आप सीखेंगे कि ऐसे AI agents को कैसे डिज़ाइन और बनाया जाए जो विज़ुअल और टेक्स्ट डेटा को एक साथ प्रोसेस करते हैं। आप agentic AI और vision-language models की मुख्य अवधारणाओं के साथ शुरुआत करेंगे, फिर दस्तावेज़ निष्कर्षण (document extraction), screenshot विश्लेषण और डायनेमिक tool calling के लिए व्यावहारिक कार्यान्वयन रणनीतियों की ओर बढ़ेंगे। What you will learn: - Multimodal AI और agentic workflows की बुनियादी शब्दावली को समझें। - छवियों, screenshots और जटिल दस्तावेज़ों से संरचित डेटा (structured data) को प्रोसेस और एक्सट्रैक्ट करें। - अपने agents को बाहरी सिस्टम के साथ इंटरैक्ट करने की अनुमति देने के लिए आधुनिक tool calling पैटर्न लागू करें। - विशेष रूप से vision-language कार्यों के लिए डिज़ाइन की गई prompt engineering तकनीकों को लागू करें। - Multimodal डेटा को संभालने के लिए मौलिक Retrieval-Augmented Generation (RAG) अवधारणाओं का पता लगाएं। - मजबूत agent architectures डिज़ाइन करें जो बहु-चरणीय तर्क (multi-step reasoning) को शालीनता से प्रबंधित करते हैं। पाठ्यक्रम आवश्यक परिभाषाओं और multimodal सिस्टम के बुनियादी आर्किटेक्चर को स्थापित करने के साथ शुरू होता है। वहां से, आप अपने स्वयं के दस्तावेज़ और विज़न-प्रोसेसिंग agents बनाने के लिए चरण-दर-चरण लिखित ट्यूटोरियल और कोड स्निपेट्स पढ़ेंगे। यह पाठ्यक्रम शुरुआती और AI agents के लिए नए डेवलपर्स के लिए डिज़ाइन किया गया है; machine learning के साथ किसी पूर्व अनुभव की आवश्यकता नहीं है। आज ही बुद्धिमान, कार्रवाई-उन्मुख AI agents की अगली पीढ़ी बनाना शुरू करें।

आपको क्या मिलेगा

  • 📜 समापन प्रमाणपत्र
    अपने LinkedIn प्रोफ़ाइल में जोड़ें
  • 💬 व्यक्तिगत AI ट्यूटर
    किसी पाठ में अटक गए? अपने बिल्ट-इन ट्यूटर से कभी भी, कुछ भी पूछो।
  • 🎧 ऑडियो संस्करण शामिल
    चलते-फिरते सीखें — स्क्रीन की ज़रूरत नहीं
  • ♾️ लाइफटाइम एक्सेस
    कभी भी लौटें, समाप्ति नहीं
  • 📱 फ़ोन या कंप्यूटर
    कहीं भी, किसी भी डिवाइस पर
  • 💸 14-दिन वापसी
    बिना सवाल
  • छोटा और केंद्रित
    1 घंटे 15 मिनट व्यावहारिक सामग्री

समीक्षाएँ (3)

Léa Meyer LU सत्यापित शिक्षार्थी
★ 4 · 2026-01-28T12:06:44+00:00

Très clair sur l'analyse d'images et l'appel d'outils, j'aurais juste aimé plus d'exemples sur les PDF complexes.

山崎 悠斗 JP सत्यापित शिक्षार्थी
★ 4 · 2025-06-14T22:39:35+00:00

画像の解釈と外部ツールの呼び出しを一つのエージェントにまとめる流れがよく分かりました。文書を読み取らせる部分はとても実践的でしたが、複数ツールを連携させる例がもう少し欲しかったです。それでも入門としては十分おすすめできます。

رشيد بن إبراهيم TN सत्यापित शिक्षार्थी
★ 5 · 2025-06-04T00:28:39+00:00

أعجبني كثيراً كيف يتعلم الوكيل قراءة المستندات وتفسير الصور في آن واحد ثم استدعاء أدوات خارجية لإكمال المهمة. الجزء الخاص بربط الوكيل بالأدوات كان عملياً جداً وطبقته مباشرة على مشروعي الخاص.

समीक्षा लिखें

भेजने के बाद साइन इन के लिए कहेंगे — आपका ड्राफ्ट सहेजा रहेगा।

शिक्षार्थियों ने यह भी लिया

अक्सर पूछे जाने वाले प्रश्न

इस कोर्स के लिए मुझे क्या चाहिए? +

बस इंटरनेट वाला एक फ़ोन या कंप्यूटर। कोई इंस्टॉल नहीं, कोई विशेष हार्डवेयर नहीं।

मैं भुगतान कैसे करूँ? +

Stripe के माध्यम से कार्ड से। हम कार्ड विवरण स्टोर नहीं करते — Stripe सुरक्षित रूप से संभालता है।

क्या मुझे रिफ़ंड मिल सकता है? +

हाँ — 14 दिनों में पूर्ण रिफ़ंड, बिना सवाल।

मेरा एक्सेस कब तक रहेगा? +

हमेशा के लिए। एक बार खरीदने पर कोर्स आपका है — कभी भी दोबारा देखें।

क्या मुझे प्रमाणपत्र मिलेगा? +

हाँ। पूरा करने पर एक प्रमाणपत्र मिलेगा जिसे आप अपने LinkedIn प्रोफ़ाइल में जोड़ सकते हैं।

इन क्षेत्रों के लिए
टेक डिज़ाइन वित्त मार्केटिंग स्वास्थ्य शिक्षा आतिथ्य विनिर्माण