- عنوان کتاب: Deep Reinforcement Learning with Python
- نویسنده: Nimish Sanghi
- حوزه: یادگیری عمیق
- سال انتشار: 2024
- تعداد صفحه: 650
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 17.3 مگابایت
این کتاب در مورد یادگیری تقویتی است و خوانندگان را از طریق اصول اولیه به موضوعات پیشرفته می برد. اگرچه این کتاب هیچ دانش قبلی در زمینه یادگیری تقویتی را فرض نمی کند، اما انتظار دارد خوانندگان با اصول یادگیری ماشینی آشنا باشند. آیا در پایتون کدنویسی کرده اید؟ آیا کار با کتابخانه هایی مانند NumPy و scikit-learn راحت هستید؟ آیا در مورد یادگیری عمیق شنیده اید و آیا بلوک های اصلی آموزش مدل های ساده در PyTorch را بررسی کرده اید؟ شما باید به این سوالات پاسخ مثبت دهید تا از این کتاب بیشترین بهره را ببرید. اگر نه، پیشنهاد می کنم ابتدا کمی با این مفاهیم آشنا شوید. هیچ چیز خیلی عمیق نیست – هر آموزش آنلاین مقدماتی یا کتابی از Apress در مورد این موضوعات کافی خواهد بود. در این ویرایش دوم، من تغییرات عمده ای ایجاد کرده ام در حالی که بیشتر مطالب را از نسخه اول حفظ کرده ام. افزودههای اصلی مربوط به پیشرفتهای جدید در زمینه مدلهای زبان بزرگ (LLM) و هوش مصنوعی چندوجهی است که از اواخر سال 2022 جهان را متحول کرده است. یادگیری تقویتی (RL) نقش مهمی در ایجاد این امکان از طریق یادگیری تقویتی ایفا کرده است. بازخورد انسانی (RLHF). این نسخه دارای فصل جدیدی است که به این موضوع اختصاص یافته است. این یک نمای کلی از ترانسفورماتورها، LLMها، و موضوعات مرتبط مانند مهندسی سریع، بازیابی نسل افزوده (RAG)، تنظیم دقیق کارآمد پارامترها (PEFT) و زنجیره ای از LLM ها و عوامل خودکار مبتنی بر LLM را به خواننده ارائه می دهد. توضیح مفصلی از مفهوم RLHF. در همان فصل، بهینهسازی سیاست پروگزیمال (PPO) را نیز بررسی خواهید کرد، که یک الگوریتم مبتنی بر پیشرفتهترین الگوریتم RL است که توسط OpenAI برای تنظیم دقیق RLHF ChatGPT استفاده میشود. اضافه شده دیگر فصلی در RL چند عامله (MARL) و مارل عمیق (DMARL) است که با بیش از یک عامل همکاری یا رقابت در یک محیط سروکار دارد. در این فصل، من با مقدمه شروع میکنم و تا یک مثال کاربردی پیش میروم. من بحث را به معرفی مفاهیم کلیدی محدود میکنم و به خوانندگان علاقهمند میتوانم متون تخصصی در MARL را برای کاوش بیشتر دنبال کنند. این نسخه همچنین موضوعات دیگری مانند تنظیم هایپرپارامتر را پوشش می دهد. این شامل یک مرور کلی از موضوعات دیگر مانند یادگیری کنجکاوی، استفاده از ترانسفورماتورها در RL به روشهای مختلف، حوزههای نوظهور مانند نمونه کارآمد RL آفلاین، ترانسفورماتورهای تصمیمگیری، یادگیری برنامه درسی خودکار، RL صفر شات و پیشرفتهای مختلف دیگر در این زمینه است. چاپ اول فصل مربوط به شبکه های Deep Q به دو قسمت تقسیم شده است تا سازماندهی بهتری برای موضوع ارائه دهد.
This book is about reinforcement learning, taking the readers through the basics to advanced topics. Although this book assumes no prior knowledge of the field of reinforcement learning, it expects the readers to be familiar with the basics of machine learning. Have you coded in Python? Are you comfortable working with libraries like NumPy and scikit-learn? Have you heard of deep learning and have you explored the basic build blocks of training simple models in PyTorch? You should answer yes to these questions to get the most out of this book. If not, I suggest you learn a bit about these concepts first. Nothing too deep—any introductory online tutorial or book from Apress on these topics will be sufficient.
In this second edition, I have made some major changes while keeping most of the content from the first edition. The main additions are related to the new developments in the field of Large Language Models (LLM) and Multimodal Generative AI, which have revolutionized the world since late 2022. Reinforcement learning (RL) has played a crucial role in enabling this through Reinforcement Learning from Human Feedback (RLHF). This edition has a new chapter dedicated to this topic. It gives the reader a high-level overview of transformers, LLMs, and related topics like prompt engineering, Retrieval Augmented Generation (RAG), parameter efficient fine-tuning (PEFT), and chaining of LLMs and LLM-based auto agents, followed by a detailed explanation of the concept of RLHF. In the same chapter, you’ll also explore Proximal Policy Optimization (PPO), which is a popular state-of-the-art RL based algorithm that was used by OpenAI for the RLHF fine-tuning of ChatGPT.
Another addition is a chapter on multi-agent RL (MARL) and deep MARL (DMARL), which deals with more than one agent cooperating or competing in the same environment. In this chapter, I start with the introduction and go all the way to a working example. I limit the discussion to introducing the key concepts, enabling interested readers to follow specialized texts on MARL for further exploration.
This edition also covers additional topics, like hyperparameter tuning. It includes an overview of other topics like curiosity learning, use of transformers in RL in various ways, emerging areas such as sample efficient offline RL, decision transformers, automated curriculum learning, zero-shot RL, and various other advances in the field since the first edition. The chapter on Deep Q networks has been split into two to provide better organization to the topic.
این کتاب را میتوانید بصورت رایگان از لینک زیر دانلود نمایید.
Download: Deep Reinforcement Learning with Python
نظرات کاربران