0

دانلود کتاب ساخت هوش مصنوعی مولد چندوجهی و برنامه‌های عامل‌محور

بازدید 415
  • عنوان کتاب: Building Multimodal Generative AI and Agentic Applications
  • نویسنده: Indrajit Kar
  • حوزه: برنامه‌های عامل‌محور
  • سال انتشار: 2026
  • تعداد صفحه: 577
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 9.74 مگابایت

ما در عصر همکاری هوشمند زندگی می‌کنیم، جایی که هوش مصنوعی دیگر فقط یک ابزار نیست، بلکه شریکی است که قادر به بازیابی دانش، تولید ایده، استدلال از طریق مسائل و تعامل در زمینه‌هایی مانند متن، تصاویر و صدا است. ظهور برنامه‌های چندوجهی و عامل‌محور، نقطه عطفی در نحوه ساخت، استقرار و تکیه بر هوش مصنوعی است. این کتاب، ساخت هوش مصنوعی مولد چندوجهی و برنامه‌های عامل‌محور، یک راهنمای عملی برای کسانی است که می‌خواهند فراتر از تئوری حرکت کنند و در واقع آینده سیستم‌های هوش مصنوعی را بسازند. در طول ۱۸ فصل، شما گام به گام از اصول اولیه به پیاده‌سازی‌های پیشرفته حرکت خواهید کرد، از بازیابی، تولید و هماهنگ‌سازی شروع می‌کنید؛ به گردش‌های کاری چندوجهی که متن، تصاویر و صدا را ترکیب می‌کنند، پیشرفت می‌کنید؛ و سپس به سمت برنامه‌های دنیای واقعی مانند سیستم‌های تبدیل متن به SQL، OCR، تشخیص تقلب و عملیات هوش مصنوعی پیش می‌روید. هر فصل به گونه‌ای طراحی شده است که عملی و قابل فهم باشد. شما توضیحات مفهومی، اصول طراحی سیستم، راهنمای کد و انجام تمرین‌هایی را خواهید یافت که شما را به آزمایش و یادگیری با عمل سوق می‌دهد. هدف این کتاب نه تنها توضیح نحوه عملکرد این سیستم‌ها، بلکه توانمندسازی شما برای ساخت برنامه‌های کاربردی هوش مصنوعی مقیاس‌پذیر، چندوجهی و عامل‌محور خودتان است، برنامه‌هایی که قابل اعتماد، ایمن و تأثیرگذار باشند. چه مهندس، محقق یا رهبر فناوری باشید، امیدوارم این کتاب شما را به دانش، اعتماد به نفس و الهام‌بخشی برای شکل‌دهی نسل بعدی هوش مصنوعی مجهز کند. فصل 1: معرفی هوش مصنوعی مولد عصر جدید – این فصل بلوک‌های سازنده کلیدی سیستم‌های هوش مصنوعی مدرن را معرفی می‌کند. این فصل با مروری بر هوش مصنوعی مولد آغاز می‌شود و سپس سیستم‌های بازیابی، سیستم‌های تولید و نقاط قوت هر یک را بررسی می‌کند. این فصل نحوه ترکیب این دو توسط تولید نسل افزوده شده با بازیابی (RAG) و نحوه کمک ارکستراسیون به اجزای مختلف هوش مصنوعی برای همکاری با یکدیگر را پوشش می‌دهد. این فصل همچنین توکن‌ها، پایگاه‌های داده برداری و روش‌های رتبه‌بندی مجدد را همراه با تفاوت‌های بین دو رمزگذار و رمزگذار متقاطع توضیح می‌دهد. در نهایت، مباحث ضروری مانند گاردریل‌ها برای استفاده ایمن از هوش مصنوعی، نقش عامل‌ها و اهمیت پروتکل‌های زمینه مدل را مورد بحث قرار می‌دهد. فصل 2: ​​بررسی عمیق سیستم‌های چندوجهی – این فصل بر مدل‌های زبان بینایی و نقش آنها در هوش مصنوعی چندوجهی تمرکز دارد. این فصل توضیح می‌دهد که مدل‌های زبان بینایی چیستند، رویکردهای مختلف پیاده‌سازی را مقایسه می‌کند و تفاوت آنها را با سیستم‌های GenAI چندوجهی گسترده‌تر بررسی می‌کند. این فصل همچنین به مدل‌های زبان بینایی با عمق بیشتری نگاه می‌کند و راه‌هایی را برای طبقه‌بندی سیستم‌های چندوجهی بر اساس خروجی‌های آنها معرفی می‌کند. فصل 3: پیاده‌سازی سیستم GenAI محلی تک‌وجهی – این فصل جنبه عملی ساخت سیستم‌های GenAI را بررسی می‌کند. این فصل با نقش GPUها در چشم‌انداز هوش مصنوعی امروزی و نحوه استفاده از یک GPU محلی آغاز می‌شود. سپس این فصل Ollama را معرفی می‌کند، از جمله نحوه تولید یک سند PDF با آن. در ادامه، نحوه کار RAG را به همراه چالش‌های کلیدی مربوط به پیاده‌سازی مؤثر RAG توضیح می‌دهد. فصل 4: پیاده‌سازی سیستم‌های GenAI مبتنی بر API تک‌وجهی – این فصل مقدمه‌ای عملی برای کار با APIها و مدل‌های OpenAI ارائه می‌دهد. این فصل توضیح می‌دهد که چگونه از استفاده از OpenAI برای کارهای اساسی به سمت ساخت راه‌حل‌های پیشرفته‌تر هوش مصنوعی عامل‌گرا حرکت کنیم. شما یاد خواهید گرفت که چگونه پرس‌وجوهای چند سندی را انجام دهید، یک سیستم تولید افزوده بازیابی ماژولار را با استفاده از OpenAI و Faiss پیاده‌سازی کنید و مجموعه‌ای از مراحل لازم برای گسترش بیشتر این قابلیت‌ها را بررسی کنید. فصل 5: پیاده‌سازی سیستم‌های GenAI عامل‌دار با انسان در حلقه – این فصل بر طراحی و پیشرفت سیستم‌های هوش مصنوعی مولد عامل‌دار تمرکز دارد. این فصل با اصول معماری چنین سیستم‌هایی شروع می‌شود و سپس به گردش کار RAG انسان در حلقه (HITL) از ابتدا تا انتها می‌پردازد. از آنجا، بررسی می‌کند که چگونه تنظیمات HITL می‌توانند به سیستم‌های RAG HITL چند عاملی تکامل یابند. این فصل با روشن کردن تفاوت‌های بین هوش مصنوعی عامل‌دار و عامل‌های هوش مصنوعی، برجسته کردن نقش‌ها و کاربردهای متمایز آنها، به پایان می‌رسد. فصل 6: سیستم‌های GenAI دو و چند مرحله‌ای – این فصل درک عمیقی از مفاهیم تعاملات در سیستم‌های بازیابی متراکم و اهمیت آنها در RAG ارائه می‌دهد. نقش مدل‌های تعامل در سیستم‌های RAG دو مرحله‌ای را توضیح می‌دهد و استراتژی‌های مختلف رتبه‌بندی مجدد، از جمله تعامل دیرهنگام، تعامل کامل و مدل‌های چند برداری را با هم مقایسه می‌کند. سپس این فصل معماری‌های RAG دو مرحله‌ای و چند مرحله‌ای را معرفی می‌کند، مکانیسم‌های درجه‌بندی برای ارزیابی نتایج بازیابی شده را مورد بحث قرار می‌دهد و نحوه پیاده‌سازی یک گردش کار RAG چند مرحله‌ای با مسیریابی برای پاسخ‌های دقیق‌تر و کارآمدتر را نشان می‌دهد. فصل 7: ساخت یک سیستم بازیابی چندوجهی دوطرفه – این فصل سیستم‌های چندوجهی و نحوه طبقه‌بندی آنها بر اساس خروجی‌هایشان را معرفی می‌کند. سپس نحوه کار یک سیستم بازیابی چندوجهی را توضیح می‌دهد و پیاده‌سازی کد را با توضیح گام به گام ارائه می‌دهد. این فصل با بخش «انجام دادن» به پایان می‌رسد و به خوانندگان تمرین‌های عملی برای اعمال و تعمیق درک خود ارائه می‌دهد.

We are living in the age of intelligent collaboration, where AI is no longer just a tool, but a partner capable of retrieving knowledge, generating ideas, reasoning through problems, and interacting across modalities like text, images, and voice. The emergence of multimodal and agentic applications marks a turning point in how we build, deploy, and rely on AI. This book, Building Multimodal Generative AI and Agentic Applications, is a practical guide for those who want to move beyond theory and actually build the future of AI systems. Across 18 chapters, you will move step-bystep from fundamentals to advanced implementations, starting with retrieval, generation, and orchestration; progressing into multimodal workflows that combine text, images, and voice; and then advancing toward real-world applications like text-to-SQL systems, OCR, fraud detection, and AI operations. Every chapter is designed to be hands-on and approachable. You will find conceptual explanations, system design principles, code walkthroughs, and to do exercises that push you to experiment and learn by doing. The goal of this book is not only to explain how these systems work, but also to empower you to build your own scalable, multimodal, and agentic AI applications, applications that are reliable, safe, and impactful. Whether you are an engineer, researcher, or leader in technology, I hope that this book equips you with the knowledge, confidence, and inspiration to shape the next-generation of AI. Chapter 1: Introducing New Age Generative AI – This chapter introduces the key building blocks of modern AI systems. It begins with an overview of generative AI and then explores retrieval systems, generation systems, and the strengths of each. It covers how retrieval-augumented generation (RAG) generation combines the two, and how orchestration helps different AI components work together. The chapter also explains tokens, vector databases, and reranking methods, along with the differences between bi-encoders and cross-encoders. Finally, it discusses essential topics like guardrails for safe AI use, the role of agents, and the importance of Model Context Protocols. Chapter 2: Deep Dive into Multimodal Systems – This chapter focuses on vision-language models and their role in multimodal AI. It explains what vision-language models are, compares different implementation approaches, and explores how they differ from broader multimodal GenAI systems. The chapter also looks at vision-language models in more depth and introduces ways to classify multimodal systems based on their outputs. Chapter 3: Implementing Unimodal Local GenAI System – This chapter explores the practical side of building GenAI systems. It begins with the role of GPUs in today’s AI landscape and how to make use of a local GPU. The chapter then introduces Ollama, including how to generate a PDF document with it. Moving forward, it explains how RAG works, along with the key challenges involved in implementing RAG effectively. Chapter 4: Implementing Unimodal API-based GenAI Systems – This chapter provides a hands-on introduction to working with OpenAI’s APIs and models. It explains how to move from using OpenAI for basic tasks to building more advanced agentic AI solutions. You will learn how to perform multi-document queries, implement a modular retrieval-augmented generation system using OpenAI and Faiss, and explore a set of to do steps for extending these capabilities further. Chapter 5: Implementing Agentic GenAI Systems with Human-in-theloop – This chapter focuses on designing and advancing agentic generative AI systems. It starts with principles of architecting such systems and then walks through an end-to-end human-in-the-loop (HITL) RAG workflow. From there, it explores how HITL setups can evolve into multi-agent HITL RAG systems. The chapter concludes by clarifying the differences between agentic AI and AI agents, highlighting their distinct roles and applications.. Chapter 6: Two and Multi-stage GenAI Systems – This chapter provides a deep understanding of the concepts of interactions within dense retrieval systems and their importance in RAG. It explains the role of interaction models in two-stage RAG systems and compares different reranking strategies, including late interaction, full interaction, and multi-vector models. The chapter then introduces two-stage and multi-stage RAG architectures, discusses grading mechanisms for evaluating retrieved results, and demonstrates how to implement a multi-stage RAG workflow with routing for more accurate and efficient responses. Chapter 7: Building a Bidirectional Multimodal Retrieval System – This chapter introduces multimodal systems and how they can be classified based on their outputs. It then explains the working of a multimodal retrieval system and provides a code implementation with step-by-step explanation. The chapter closes with a to do section, giving readers practical exercises to apply and deepen their understanding. Chapter 8: Building a Multimodal RAG System – This chapter focuses on practical approaches to generation and evaluation using LLMs. It begins with the implementation of generation techniques, followed by an introduction to the concept of LLM-as-a-judge and its application in building recommender systems. The chapter also covers how to incorporate grading mechanisms with OpenAI to improve evaluation. It concludes with a to do section, giving readers exercises to apply these ideas in practice. Chapter 9: Building GenAI Systems with Reranking – This chapter explores the concept of reranking and its critical role in improving retrieval and RAG systems. It explains how reranking is applied in both text-based and multimodal contexts, with a focus on using cross-encoders in multimodal RAG. The chapter also introduces the cross-encoder architecture in multimodal settings and the idea of multi-index embedding within RAG systems. Alongside these concepts, it provides a code implementation with detailed explanation and concludes with a to do section to help readers practice and solidify their understanding. Chapter 10: Retrieval Optimization for Multimodal GenAI – This chapter examines how to make retrieval systems more efficient and effective. It begins by outlining common drawbacks of retrieval systems, then introduces various optimization techniques to address these limitations. The chapter also explores retrieval optimization in detail, showing how these methods can be applied to improve performance. It then shifts focus to multimodal RAG systems, explaining how adaptive index refresh can enhance their accuracy and responsiveness. Finally, it provides a to do section with exercises for readers to apply these ideas in practice. Chapter 11: Building Multimodal GenAI Systems with Voice as Input – This chapter explores how RAG extends beyond just image and text. It introduces the core concepts of expanding RAG to other modalities and shows how speech interfaces can be integrated into the RAG architecture. The chapter also provides a step-by-step code implementation of a voiceenabled RAG system, demonstrating how to bring these ideas into practice. Chapter 12: Advanced Multimodal GenAI Systems – This chapter highlights the importance of reasoning in GenAI systems. It explains the different types of reasoning used in GenAI and why they matter for building more reliable and intelligent models. The chapter also introduces key benchmarks that are used to evaluate reasoning capabilities in AI systems. Chapter 13: Advanced Multimodal GenAI Systems Implementation – This chapter focuses on how reasoning can be enhanced in GenAI through effective prompting techniques. It then explores specialized architectures that bring reasoning into play at different stages—first during reranking, where results are refined, and then at the recommendation stage, where reasoning helps deliver more accurate and context-aware suggestions. Chapter 14: Building Text-to-SQL Systems – This chapter delves into the complexities of text-to-SQL and why it is considered a challenging problem. It begins by explaining the basic concepts and then explores realworld applications where text-to-SQL can make a significant impact. The chapter discusses the key challenges involved, followed by practical guidance on designing an effective text-to-SQL system. It also covers entity extraction using large language models, highlighting how this integrates with text-to-SQL to improve performance. Finally, the chapter emphasizes how such systems can enhance data accessibility and literacy, while also introducing performance metrics and best practices to ensure reliability. Chapter 15: Agentic Text-to-SQL Systems and Architecture Decision- Making – This chapter presents the design and implementation of an agentic text-to-SQL system tailored for real-time retail intelligence. It explains the system’s architecture in detail, along with code walkthroughs for better understanding. A step-by-step pipeline is provided to show how the system processes queries, leading to meaningful outputs. The chapter concludes by demonstrating the actual results generated by the text-to-SQL system and how they address the original problem statement. Chapter 16: GenAI for Extracting Text from Images – This chapter introduces three different approaches to applying GenAI for optical character recognition. It explains how OCR works on images, as well as how it can be extended to multimodal documents that combine text, images, and other elements. The chapter concludes with a to do section, giving readers practical exercises to apply and reinforce what they have learned. Chapter 17: Integrating Traditional AI/ML into GenAI Workflow – This chapter explores how traditional machine learning models can be integrated into GenAI workflows through a detailed case study. It presents a practical use case of hybrid ensemble learning for telecom fraud detection, showing how models like XGBoost can be wrapped and enhanced within an LLM-powered system. The chapter also provides a comparative overview of different ways ML models can be combined with GenAI to create hybrid solutions. It concludes with a to do section, offering readers hands-on activities to deepen their understanding. Chapter 18: LLM Operations and GenAI Evaluation Techniques – This chapter highlights the importance of operations in building and running production-grade GenAI applications. It compares evaluation methods for LLMs and RAG systems, introduces the concept of RagOps, and emphasizes the need for continuous monitoring and observability platforms. The chapter also explores how graph-enhanced RAG can improve recommendation systems and provides a comparison of different Ops practices in modern software development. Finally, it offers practical guidance on setting up MLflow for managing experiments and deployments.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Building Multimodal Generative AI and Agentic Applications

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بیشتر بخوانید

X
آموزش نقاشی سیاه قلم کلیک کنید