- عنوان کتاب: Building Scalable Deep Learning Pipelines on AWS – Develop, Train, and Deploy Deep Learning Models
- نویسنده: Abdelaziz Testas
- حوزه: یادگیری عمیق
- سال انتشار: 2025
- تعداد صفحه: 749
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 1.99 مگابایت
با رشد تصاعدی دادهها و افزایش تقاضا برای برنامههای کاربردی پیشرفته هوش مصنوعی، زیرساختهای سنتی درون محل اغلب در ارائه قدرت محاسباتی و مقیاسپذیری مورد نیاز برای جریانهای کاری یادگیری عمیق مدرن کوتاهی میکنند. در نتیجه، یادگیری عمیق مبتنی بر ابر اهمیت فزاینده ای پیدا می کند زیرا سازمان ها به دنبال راه حل های مقیاس پذیر و کارآمد برای وظایف یادگیری ماشین خود هستند. با استفاده از انعطاف پذیری، مقیاس پذیری و مقرون به صرفه بودن خدمات ابری، سازمان ها می توانند بر محدودیت های سخت افزاری غلبه کنند و توسعه و استقرار الگوریتم های پیشرفته یادگیری ماشینی را تسریع بخشند. ادغام PySpark، PyTorch، TensorFlow و Apache Airflow با خدمات وب آمازون (AWS)، از جمله Amazon Simple Storage Service (S3) و Amazon Elastic Compute Cloud (EC2)، ابزارهای قدرتمندی را برای ساخت و استقرار مدل های یادگیری عمیق در مقیاس ارائه می دهد. AWS به عنوان محبوبترین ارائهدهنده خدمات ابری با بیشترین سهم بازار، زیرساختی قوی برای اجرای کارآمد این وظایف فراهم میکند. این کتاب برای دانشمندان داده، مهندسین یادگیری ماشین و متخصصان هوش مصنوعی که علاقه مند به ایجاد خطوط لوله یادگیری عمیق مقیاس پذیر در AWS هستند یا به دنبال افزایش مهارت های خود در یکپارچه سازی خدمات ابری با چارچوب های یادگیری عمیق هستند، طراحی شده است. این یک راهنمای جامع برای ساختن یک خط لوله یادگیری عمیق در AWS با استفاده از ترکیبی از PySpark، PyTorch، TensorFlow و Airflow ارائه میکند. ما کل گردش کار را نشان میدهیم، با استفاده از S3 و PySpark و پیشپردازش دادهها شروع میکنیم و با برنامهریزی مدل برای اجرای Apache Airflow به پایان میرسیم. هر مرحله از خط لوله تشریح میشود و توضیحات واضح، مثالهای عملی و بینشهای برگرفته از کاربردهای دنیای واقعی ارائه میشود. این خط لوله چندین مزیت را ارائه می دهد. در مرحله اول، از مقیاس پذیری PySpark برای پردازش داده در مقیاس بزرگ و ظرفیت محاسباتی نمونه های EC2 برای آموزش مدل استفاده می کند و استفاده کارآمد از منابع را تضمین می کند. ثانیاً، یک رویکرد مبتنی بر ابر انعطافپذیری را فراهم میکند و امکان مقیاسگذاری منابع را بر اساس نیازهای حجم کاری و تهیه آسان منابع فراهم میکند. ثالثاً، PySpark و Apache Airflow وظایف پردازش دادهها را با قابلیتهای محاسباتی توزیعشدهشان ساده میکنند و امکان پیشپردازش کارآمد، تبدیل، و هماهنگسازی جریان کار را فراهم میکنند. چهارم، ظرفیت ذخیره سازی بزرگ آمازون S3 ذخیره سازی و بازیابی بی وقفه داده را تسهیل می کند و از پردازش مجموعه داده های عظیم پشتیبانی می کند. در نهایت، جداسازی نگرانیها بین پیش پردازش (PySpark)، توسعه مدل، آموزش و ارزیابی (PyTorch، TensorFlow)، هماهنگسازی مدل (Apache Airflow)، ذخیرهسازی (S3) و محاسبات (EC2) معماری را ساده میکند و ماژولار بودن را افزایش میدهد و مدیریت جریان کار را تسهیل میکند. این کتاب همچنین JupyterLab و Databricks را برای بهبود بیشتر فرآیند توسعه و استقرار بررسی میکند. JupyterLab یک محیط محاسباتی تعاملی ایده آل برای کاوش داده ها و نمونه سازی ارائه می دهد، در حالی که Databricks یک پلت فرم مشترک برای پردازش داده های بزرگ و تجزیه و تحلیل پیشرفته ارائه می دهد. این ادغام چندین سرویس ابری و ابزارهای علم داده، یک جریان کاری سرتاسر را تقویت میکند و همکاری و کارایی را در سراسر خط لوله یادگیری عمیق ارتقا میدهد. کتاب در ده فصل تنظیم شده است. در فصل 1، خوانندگان با مبانی خطوط لوله یادگیری عمیق آشنا می شوند و بر اهمیت مقیاس پذیری در چنین چارچوب هایی تأکید می کنند. علاوه بر این، یک نمای کلی از AWS بهعنوان پلتفرمی برای مقیاسپذیری ارائه شده است، که پایهای را برای فصلهای بعدی ایجاد میکند که عمیقتر در راهاندازی، پیکربندی و بهینهسازی محیطهای یادگیری عمیق در ابر AWS میپردازد.
With the exponential growth of data and the increasing demand for sophisticated AI applications, traditional on-premises infrastructure often falls short in providing the computational power and scalability required for modern deep learning workflows. Consequently, cloud-based deep learning is becoming increasingly important as organizations seek scalable and efficient solutions for their machine learning tasks. By leveraging the flexibility, scalability, and cost-effectiveness of cloud services, organizations can overcome hardware limitations and accelerate the development and deployment of advanced machine learning algorithms. Integrating PySpark, PyTorch, TensorFlow, and Apache Airflow with Amazon Web Services (AWS), including Amazon Simple Storage Service (S3) and Amazon Elastic Compute Cloud (EC2), offers powerful tools for building and deploying deep learning models at scale. AWS, as the most popular cloud service provider with the largest market share, provides a robust infrastructure for executing these tasks efficiently. This book is designed for data scientists, machine learning engineers, and AI practitioners interested in building scalable deep learning pipelines on AWS or seeking to enhance their skills in integrating cloud services with deep learning frameworks. It provides a comprehensive guide to constructing a deep learning pipeline on AWS using a combination of PySpark, PyTorch, TensorFlow, and Airflow. We illustrate the entire workflow, starting with data ingestion and preprocessing using S3 and PySpark and concluding with scheduling the model to run on Apache Airflow. Each stage of the pipeline is dissected, offering clear explanations, hands-on examples, and insights drawn from real-world applications. This pipeline offers several advantages. Firstly, it capitalizes on the scalability of PySpark for large-scale data processing and the compute capacity of EC2 instances for model training, ensuring efficient utilization of resources. Secondly, a cloud-based approach provides flexibility, allowing resource scaling based on workload demands and easy provisioning of resources. Thirdly, PySpark and Apache Airflow simplify data processing tasks with their distributed computing capabilities, enabling efficient preprocessing, transformation, and workflow orchestration. Fourthly, the large storage capacity of Amazon S3 facilitates uninterrupted data storage and retrieval, supporting the processing of massive datasets. Lastly, the separation of concerns among preprocessing (PySpark), model development, training, and evaluation (PyTorch, TensorFlow), model orchestration (Apache Airflow), storage (S3), and compute (EC2) simplifies the architecture and enhances modularity, facilitating streamlined workflow management. The book also examines JupyterLab and Databricks to further enhance the development and deployment process. JupyterLab provides an interactive computing environment ideal for data exploration and prototyping, while Databricks offers a collaborative platform for big data processing and advanced analytics. This integration of multiple cloud services and data science tools fosters an end-to-end workflow, promoting collaboration and efficiency across the deep learning pipeline. The book is divided into ten chapters. In Chapter 1, readers are introduced to the fundamentals of deep learning pipelines, emphasizing the importance of scalability in such frameworks. Additionally, an overview of AWS as a platform for scalability is provided, laying the foundation for subsequent chapters that delve deeper into setting up, configuring, and optimizing deep learning environments on the AWS cloud.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
نظرات کاربران