- عنوان کتاب: Building Multimodal Generative AI and Agentic Applications
- نویسنده: Indrajit Kar
- حوزه: برنامههای عاملمحور
- سال انتشار: 2026
- تعداد صفحه: 577
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 9.74 مگابایت
ما در عصر همکاری هوشمند زندگی میکنیم، جایی که هوش مصنوعی دیگر فقط یک ابزار نیست، بلکه شریکی است که قادر به بازیابی دانش، تولید ایده، استدلال از طریق مسائل و تعامل در زمینههایی مانند متن، تصاویر و صدا است. ظهور برنامههای چندوجهی و عاملمحور، نقطه عطفی در نحوه ساخت، استقرار و تکیه بر هوش مصنوعی است. این کتاب، ساخت هوش مصنوعی مولد چندوجهی و برنامههای عاملمحور، یک راهنمای عملی برای کسانی است که میخواهند فراتر از تئوری حرکت کنند و در واقع آینده سیستمهای هوش مصنوعی را بسازند. در طول ۱۸ فصل، شما گام به گام از اصول اولیه به پیادهسازیهای پیشرفته حرکت خواهید کرد، از بازیابی، تولید و هماهنگسازی شروع میکنید؛ به گردشهای کاری چندوجهی که متن، تصاویر و صدا را ترکیب میکنند، پیشرفت میکنید؛ و سپس به سمت برنامههای دنیای واقعی مانند سیستمهای تبدیل متن به SQL، OCR، تشخیص تقلب و عملیات هوش مصنوعی پیش میروید. هر فصل به گونهای طراحی شده است که عملی و قابل فهم باشد. شما توضیحات مفهومی، اصول طراحی سیستم، راهنمای کد و انجام تمرینهایی را خواهید یافت که شما را به آزمایش و یادگیری با عمل سوق میدهد. هدف این کتاب نه تنها توضیح نحوه عملکرد این سیستمها، بلکه توانمندسازی شما برای ساخت برنامههای کاربردی هوش مصنوعی مقیاسپذیر، چندوجهی و عاملمحور خودتان است، برنامههایی که قابل اعتماد، ایمن و تأثیرگذار باشند. چه مهندس، محقق یا رهبر فناوری باشید، امیدوارم این کتاب شما را به دانش، اعتماد به نفس و الهامبخشی برای شکلدهی نسل بعدی هوش مصنوعی مجهز کند. فصل 1: معرفی هوش مصنوعی مولد عصر جدید – این فصل بلوکهای سازنده کلیدی سیستمهای هوش مصنوعی مدرن را معرفی میکند. این فصل با مروری بر هوش مصنوعی مولد آغاز میشود و سپس سیستمهای بازیابی، سیستمهای تولید و نقاط قوت هر یک را بررسی میکند. این فصل نحوه ترکیب این دو توسط تولید نسل افزوده شده با بازیابی (RAG) و نحوه کمک ارکستراسیون به اجزای مختلف هوش مصنوعی برای همکاری با یکدیگر را پوشش میدهد. این فصل همچنین توکنها، پایگاههای داده برداری و روشهای رتبهبندی مجدد را همراه با تفاوتهای بین دو رمزگذار و رمزگذار متقاطع توضیح میدهد. در نهایت، مباحث ضروری مانند گاردریلها برای استفاده ایمن از هوش مصنوعی، نقش عاملها و اهمیت پروتکلهای زمینه مدل را مورد بحث قرار میدهد. فصل 2: بررسی عمیق سیستمهای چندوجهی – این فصل بر مدلهای زبان بینایی و نقش آنها در هوش مصنوعی چندوجهی تمرکز دارد. این فصل توضیح میدهد که مدلهای زبان بینایی چیستند، رویکردهای مختلف پیادهسازی را مقایسه میکند و تفاوت آنها را با سیستمهای GenAI چندوجهی گستردهتر بررسی میکند. این فصل همچنین به مدلهای زبان بینایی با عمق بیشتری نگاه میکند و راههایی را برای طبقهبندی سیستمهای چندوجهی بر اساس خروجیهای آنها معرفی میکند. فصل 3: پیادهسازی سیستم GenAI محلی تکوجهی – این فصل جنبه عملی ساخت سیستمهای GenAI را بررسی میکند. این فصل با نقش GPUها در چشمانداز هوش مصنوعی امروزی و نحوه استفاده از یک GPU محلی آغاز میشود. سپس این فصل Ollama را معرفی میکند، از جمله نحوه تولید یک سند PDF با آن. در ادامه، نحوه کار RAG را به همراه چالشهای کلیدی مربوط به پیادهسازی مؤثر RAG توضیح میدهد. فصل 4: پیادهسازی سیستمهای GenAI مبتنی بر API تکوجهی – این فصل مقدمهای عملی برای کار با APIها و مدلهای OpenAI ارائه میدهد. این فصل توضیح میدهد که چگونه از استفاده از OpenAI برای کارهای اساسی به سمت ساخت راهحلهای پیشرفتهتر هوش مصنوعی عاملگرا حرکت کنیم. شما یاد خواهید گرفت که چگونه پرسوجوهای چند سندی را انجام دهید، یک سیستم تولید افزوده بازیابی ماژولار را با استفاده از OpenAI و Faiss پیادهسازی کنید و مجموعهای از مراحل لازم برای گسترش بیشتر این قابلیتها را بررسی کنید. فصل 5: پیادهسازی سیستمهای GenAI عاملدار با انسان در حلقه – این فصل بر طراحی و پیشرفت سیستمهای هوش مصنوعی مولد عاملدار تمرکز دارد. این فصل با اصول معماری چنین سیستمهایی شروع میشود و سپس به گردش کار RAG انسان در حلقه (HITL) از ابتدا تا انتها میپردازد. از آنجا، بررسی میکند که چگونه تنظیمات HITL میتوانند به سیستمهای RAG HITL چند عاملی تکامل یابند. این فصل با روشن کردن تفاوتهای بین هوش مصنوعی عاملدار و عاملهای هوش مصنوعی، برجسته کردن نقشها و کاربردهای متمایز آنها، به پایان میرسد. فصل 6: سیستمهای GenAI دو و چند مرحلهای – این فصل درک عمیقی از مفاهیم تعاملات در سیستمهای بازیابی متراکم و اهمیت آنها در RAG ارائه میدهد. نقش مدلهای تعامل در سیستمهای RAG دو مرحلهای را توضیح میدهد و استراتژیهای مختلف رتبهبندی مجدد، از جمله تعامل دیرهنگام، تعامل کامل و مدلهای چند برداری را با هم مقایسه میکند. سپس این فصل معماریهای RAG دو مرحلهای و چند مرحلهای را معرفی میکند، مکانیسمهای درجهبندی برای ارزیابی نتایج بازیابی شده را مورد بحث قرار میدهد و نحوه پیادهسازی یک گردش کار RAG چند مرحلهای با مسیریابی برای پاسخهای دقیقتر و کارآمدتر را نشان میدهد. فصل 7: ساخت یک سیستم بازیابی چندوجهی دوطرفه – این فصل سیستمهای چندوجهی و نحوه طبقهبندی آنها بر اساس خروجیهایشان را معرفی میکند. سپس نحوه کار یک سیستم بازیابی چندوجهی را توضیح میدهد و پیادهسازی کد را با توضیح گام به گام ارائه میدهد. این فصل با بخش «انجام دادن» به پایان میرسد و به خوانندگان تمرینهای عملی برای اعمال و تعمیق درک خود ارائه میدهد.
We are living in the age of intelligent collaboration, where AI is no longer just a tool, but a partner capable of retrieving knowledge, generating ideas, reasoning through problems, and interacting across modalities like text, images, and voice. The emergence of multimodal and agentic applications marks a turning point in how we build, deploy, and rely on AI. This book, Building Multimodal Generative AI and Agentic Applications, is a practical guide for those who want to move beyond theory and actually build the future of AI systems. Across 18 chapters, you will move step-bystep from fundamentals to advanced implementations, starting with retrieval, generation, and orchestration; progressing into multimodal workflows that combine text, images, and voice; and then advancing toward real-world applications like text-to-SQL systems, OCR, fraud detection, and AI operations. Every chapter is designed to be hands-on and approachable. You will find conceptual explanations, system design principles, code walkthroughs, and to do exercises that push you to experiment and learn by doing. The goal of this book is not only to explain how these systems work, but also to empower you to build your own scalable, multimodal, and agentic AI applications, applications that are reliable, safe, and impactful. Whether you are an engineer, researcher, or leader in technology, I hope that this book equips you with the knowledge, confidence, and inspiration to shape the next-generation of AI. Chapter 1: Introducing New Age Generative AI – This chapter introduces the key building blocks of modern AI systems. It begins with an overview of generative AI and then explores retrieval systems, generation systems, and the strengths of each. It covers how retrieval-augumented generation (RAG) generation combines the two, and how orchestration helps different AI components work together. The chapter also explains tokens, vector databases, and reranking methods, along with the differences between bi-encoders and cross-encoders. Finally, it discusses essential topics like guardrails for safe AI use, the role of agents, and the importance of Model Context Protocols. Chapter 2: Deep Dive into Multimodal Systems – This chapter focuses on vision-language models and their role in multimodal AI. It explains what vision-language models are, compares different implementation approaches, and explores how they differ from broader multimodal GenAI systems. The chapter also looks at vision-language models in more depth and introduces ways to classify multimodal systems based on their outputs. Chapter 3: Implementing Unimodal Local GenAI System – This chapter explores the practical side of building GenAI systems. It begins with the role of GPUs in today’s AI landscape and how to make use of a local GPU. The chapter then introduces Ollama, including how to generate a PDF document with it. Moving forward, it explains how RAG works, along with the key challenges involved in implementing RAG effectively. Chapter 4: Implementing Unimodal API-based GenAI Systems – This chapter provides a hands-on introduction to working with OpenAI’s APIs and models. It explains how to move from using OpenAI for basic tasks to building more advanced agentic AI solutions. You will learn how to perform multi-document queries, implement a modular retrieval-augmented generation system using OpenAI and Faiss, and explore a set of to do steps for extending these capabilities further. Chapter 5: Implementing Agentic GenAI Systems with Human-in-theloop – This chapter focuses on designing and advancing agentic generative AI systems. It starts with principles of architecting such systems and then walks through an end-to-end human-in-the-loop (HITL) RAG workflow. From there, it explores how HITL setups can evolve into multi-agent HITL RAG systems. The chapter concludes by clarifying the differences between agentic AI and AI agents, highlighting their distinct roles and applications.. Chapter 6: Two and Multi-stage GenAI Systems – This chapter provides a deep understanding of the concepts of interactions within dense retrieval systems and their importance in RAG. It explains the role of interaction models in two-stage RAG systems and compares different reranking strategies, including late interaction, full interaction, and multi-vector models. The chapter then introduces two-stage and multi-stage RAG architectures, discusses grading mechanisms for evaluating retrieved results, and demonstrates how to implement a multi-stage RAG workflow with routing for more accurate and efficient responses. Chapter 7: Building a Bidirectional Multimodal Retrieval System – This chapter introduces multimodal systems and how they can be classified based on their outputs. It then explains the working of a multimodal retrieval system and provides a code implementation with step-by-step explanation. The chapter closes with a to do section, giving readers practical exercises to apply and deepen their understanding. Chapter 8: Building a Multimodal RAG System – This chapter focuses on practical approaches to generation and evaluation using LLMs. It begins with the implementation of generation techniques, followed by an introduction to the concept of LLM-as-a-judge and its application in building recommender systems. The chapter also covers how to incorporate grading mechanisms with OpenAI to improve evaluation. It concludes with a to do section, giving readers exercises to apply these ideas in practice. Chapter 9: Building GenAI Systems with Reranking – This chapter explores the concept of reranking and its critical role in improving retrieval and RAG systems. It explains how reranking is applied in both text-based and multimodal contexts, with a focus on using cross-encoders in multimodal RAG. The chapter also introduces the cross-encoder architecture in multimodal settings and the idea of multi-index embedding within RAG systems. Alongside these concepts, it provides a code implementation with detailed explanation and concludes with a to do section to help readers practice and solidify their understanding. Chapter 10: Retrieval Optimization for Multimodal GenAI – This chapter examines how to make retrieval systems more efficient and effective. It begins by outlining common drawbacks of retrieval systems, then introduces various optimization techniques to address these limitations. The chapter also explores retrieval optimization in detail, showing how these methods can be applied to improve performance. It then shifts focus to multimodal RAG systems, explaining how adaptive index refresh can enhance their accuracy and responsiveness. Finally, it provides a to do section with exercises for readers to apply these ideas in practice. Chapter 11: Building Multimodal GenAI Systems with Voice as Input – This chapter explores how RAG extends beyond just image and text. It introduces the core concepts of expanding RAG to other modalities and shows how speech interfaces can be integrated into the RAG architecture. The chapter also provides a step-by-step code implementation of a voiceenabled RAG system, demonstrating how to bring these ideas into practice. Chapter 12: Advanced Multimodal GenAI Systems – This chapter highlights the importance of reasoning in GenAI systems. It explains the different types of reasoning used in GenAI and why they matter for building more reliable and intelligent models. The chapter also introduces key benchmarks that are used to evaluate reasoning capabilities in AI systems. Chapter 13: Advanced Multimodal GenAI Systems Implementation – This chapter focuses on how reasoning can be enhanced in GenAI through effective prompting techniques. It then explores specialized architectures that bring reasoning into play at different stages—first during reranking, where results are refined, and then at the recommendation stage, where reasoning helps deliver more accurate and context-aware suggestions. Chapter 14: Building Text-to-SQL Systems – This chapter delves into the complexities of text-to-SQL and why it is considered a challenging problem. It begins by explaining the basic concepts and then explores realworld applications where text-to-SQL can make a significant impact. The chapter discusses the key challenges involved, followed by practical guidance on designing an effective text-to-SQL system. It also covers entity extraction using large language models, highlighting how this integrates with text-to-SQL to improve performance. Finally, the chapter emphasizes how such systems can enhance data accessibility and literacy, while also introducing performance metrics and best practices to ensure reliability. Chapter 15: Agentic Text-to-SQL Systems and Architecture Decision- Making – This chapter presents the design and implementation of an agentic text-to-SQL system tailored for real-time retail intelligence. It explains the system’s architecture in detail, along with code walkthroughs for better understanding. A step-by-step pipeline is provided to show how the system processes queries, leading to meaningful outputs. The chapter concludes by demonstrating the actual results generated by the text-to-SQL system and how they address the original problem statement. Chapter 16: GenAI for Extracting Text from Images – This chapter introduces three different approaches to applying GenAI for optical character recognition. It explains how OCR works on images, as well as how it can be extended to multimodal documents that combine text, images, and other elements. The chapter concludes with a to do section, giving readers practical exercises to apply and reinforce what they have learned. Chapter 17: Integrating Traditional AI/ML into GenAI Workflow – This chapter explores how traditional machine learning models can be integrated into GenAI workflows through a detailed case study. It presents a practical use case of hybrid ensemble learning for telecom fraud detection, showing how models like XGBoost can be wrapped and enhanced within an LLM-powered system. The chapter also provides a comparative overview of different ways ML models can be combined with GenAI to create hybrid solutions. It concludes with a to do section, offering readers hands-on activities to deepen their understanding. Chapter 18: LLM Operations and GenAI Evaluation Techniques – This chapter highlights the importance of operations in building and running production-grade GenAI applications. It compares evaluation methods for LLMs and RAG systems, introduces the concept of RagOps, and emphasizes the need for continuous monitoring and observability platforms. The chapter also explores how graph-enhanced RAG can improve recommendation systems and provides a comparison of different Ops practices in modern software development. Finally, it offers practical guidance on setting up MLflow for managing experiments and deployments.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Building Multimodal Generative AI and Agentic Applications

نظرات کاربران