- عنوان کتاب: Reinforcement Learning Theory and Python Implementation
- نویسنده: Zhiqing Xiao
- حوزه: یادگیری تقویتی
- سال انتشار: 2024
- تعداد صفحه: 574
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 5.42 مگابایت
یادگیری تقویتی (RL) نوعی هوش مصنوعی (AI) است که زندگی ما را تغییر میدهد: بازیکنان یادگیری تقویتی در بسیاری از بازیها مانند بازی Go و StarCraft، انسانها را شکست دادهاند؛ کنترلکنندگان یادگیری تقویتی، رباتهای متنوع و وسایل نقلیه بدون سرنشین را هدایت میکنند؛ معاملهگران یادگیری تقویتی در بازارهای مالی پول زیادی به دست میآورند و مدلهای زبانی بزرگ با یادگیری تقویتی مانند ChatGPT در بسیاری از برنامههای تجاری استفاده شدهاند. از آنجایی که الگوریتم یادگیری تقویتی یکسان با تنظیمات پارامتر یکسان میتواند وظایف بسیار متفاوتی را حل کند، یادگیری تقویتی همچنین به عنوان یک راه مهم برای هوش مصنوعی عمومی در نظر گرفته میشود. در اینجا صمیمانه از شما دعوت میکنم یادگیری یادگیری تقویتی را برای موجسواری در این امواج هوش مصنوعی یاد بگیرید. این کتاب یک آموزش یادگیری تقویتی با توضیح تئوری و پیادهسازی پایتون است. این کتاب شامل سه بخش زیر است. • فصل 1: پیشینه یادگیری تقویتی را از ابتدا معرفی کنید و کتابخانه محیط Gym را معرفی کنید. • فصلهای 2 تا 14: نظریه و الگوریتمهای اصلی یادگیری تقویتی را معرفی کنید. بر اساس تأثیرگذارترین مدل یادگیری تقویتی – فرآیند تصمیمگیری مارکوف زمان گسسته با بازده تنزیلشده، نظریه اساسی را به صورت ریاضی استخراج میکنیم. بر اساس این نظریه، الگوریتمهایی، شامل الگوریتمهای کلاسیک یادگیری تقویتی و الگوریتمهای یادگیری تقویتی عمیق، معرفی میکنیم و سپس این الگوریتمها را در پایتون پیادهسازی میکنیم. • فصلهای ۱۵-۱۶: سایر مدلهای یادگیری تقویتی و بسط مدلهای یادگیری تقویتی، شامل یادگیری تقویتی با پاداش متوسط، زمان پیوسته، غیرهمگن، نیمه مارکوف، مشاهدهپذیری جزئی، یادگیری تقویتی مبتنی بر ترجیح و یادگیری تقلیدی را معرفی میکنیم تا درک کاملی از چشمانداز یادگیری تقویتی و بسط آن داشته باشیم. این کتاب به طور جامع نظریه یادگیری تقویتی جریان اصلی را معرفی میکند. • این کتاب تنه نظریه یادگیری تقویتی مدرن را به روشی سیستماتیک معرفی میکند. همه نتایج اصلی با اثبات همراه هستند. ما الگوریتمهای مبتنی بر این نظریه را معرفی میکنیم که همه الگوریتمهای یادگیری تقویتی جریان اصلی، از جمله فناوری کلیدی ChatGPT مانند بهینهسازی سیاست پروگزیمال (PPO) و یادگیری تقویتی با بازخوردهای انسانی (RLHF) را پوشش میدهد. • این کتاب از مجموعهای منسجم از نمادهای ریاضی استفاده میکند که با آموزشهای رایج یادگیری تقویتی سازگار هستند. همه فصلها با کدهای پایتون همراه هستند. • درک آسان: همه کدها به روشی منسجم و مختصر پیادهسازی شدهاند که مستقیماً به توضیح الگوریتمها نگاشت میشوند. • بررسی آسان: تمام کدها و نتایج اجرا در GitHub نشان داده میشوند. میتوانیم آنها را در مرورگر وب مرور کنیم یا به صورت محلی دانلود کنیم تا اجرا شوند. هر الگوریتم در یک فایل مستقل مستقل پیادهسازی شده است که میتواند به صورت جداگانه مرور و اجرا شود. • محیطهای متنوع: ما نه تنها وظایف داخلی کتابخانه Gym را در نظر میگیریم، بلکه افزونه شخص ثالث Gym را نیز در نظر میگیریم. ما حتی محیطهایی را برای وظایف خودمان ایجاد میکنیم. • سازگاری بالا: همه کدها را میتوان در هر یک از سه سیستم عامل اصلی (ویندوز، macOS و لینوکس) اجرا کرد. روشهای راهاندازی محیطها ارائه شده است. الگوریتمهای Deep RL بر اساس TensorFlow 2 و PyTorch پیادهسازی شدهاند، به طوری که خوانندگان میتوانند هر یک از این دو را انتخاب کنند یا مقایسهای یک به یک داشته باشند. • بر اساس آخرین نسخههای نرمافزار: همه کدها بر اساس آخرین نسخه پایتون و بستههای افزونه آن هستند. کدهای موجود در GitHub مطابق با بهروزرسانی نرمافزار بهروزرسانی میشوند. • نیاز سختافزاری کم: همه کدها را میتوان در یک کامپیوتر بدون GPU اجرا کرد.
Reinforcement Learning (RL) is a type of Artificial Intelligence (AI) that changes our lives: RL players have defeated human in many games such as the game of Go and StarCraft; RL controllers are driving varied robots and unmanned vehicles; RL traders are making tons of money in financial markets, and the large language model with RL such as ChatGPT have been used in many business applications. Since the same RL algorithm with the same parameter setting can solve very different tasks, RL is also regarded as an important way to general AI. Here I sincerely invite you to learn RL to surf in these AI waves. This book is a tutorial on RL, with explanation of theory and Python implementation. It consists of the following three parts. • Chapter 1: Introduce the background of RL from scratch, and introduce the environment library Gym. • Chapters 2–14: Introduce the mainstream RL theory and algorithms. Based on the most influential RL model–discounted return discrete-time Markov decision process, we derive the fundamental theory mathematically. Upon the theory we introduce algorithms, including both classical RL algorithms and deep RL algorithms, and then implement those algorithms in Python. • Chapters 15–16: Introduce other RL models and extensions of RL models, including average-reward, continuous-time, non-homogenous, semi-Markov, partial observability, preference-based RL, and imitation learning, to have a complete understanding of the landscape of RL and its extension. This book comprehensively introduces the mainstream RL theory. • This book introduces the trunk of the modern RL theory in a systematically way. All major results are accompanied with proofs. We introduce the algorithms based on the theory, which covers all mainstream RL algorithms, including key technology of ChatGPT such as Proximal Policy Optimization (PPO) and Reinforcement Learning with Human Feedbacks (RLHF). • This book uses a consistent set of mathematical notations, which are compatible with mainstream RL tutorials. All chapters are accompanied with Python codes. • Easy to understand: All codes are implemented in a consistent and concise way, which directly maps to the explanation of algorithms. • Easy to check: All codes and running results are shown in GitHub. We can either browse them in the web browser, or download locally to run them. Every algorithm is implemented in a self-contained standalone file, which can be browsed and executed individually. • Diverse environments: We not only consider the built-in tasks in the library Gym, but also consider the third-party extension of the Gym. We even create environments for our own tasks. • Highly compatible: All codes can be run in any one of all three major operating systems (Windows, macOS, and Linux). The methods to setup the environments are provided. Deep RL algorithms are implemented based on both TensorFlow 2 and PyTorch, so that readers can choose any one among the two or have a one-to-one comparison. • Based on latest versions of software: All codes are based on the latest version of Python and its extension packages. The codes in GitHub will be updated according to the software update. • Little hardware requirement: All codes can be run in a PC without GPU.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Reinforcement Learning Theory and Python Implementation
نظرات کاربران