مجله علمی تفریحی بیبیس
0

دانلود کتاب ایجاد خطوط لوله یادگیری عمیق مقیاس پذیر در AWS – توسعه، آموزش، و استقرار مدل های یادگیری عمیق

  • عنوان کتاب: Building Scalable Deep Learning Pipelines on AWS – Develop, Train, and Deploy Deep Learning Models
  • نویسنده: Abdelaziz Testas
  • حوزه: یادگیری عمیق
  • سال انتشار: 2025
  • تعداد صفحه: 749
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 1.99 مگابایت

با رشد تصاعدی داده‌ها و افزایش تقاضا برای برنامه‌های کاربردی پیشرفته هوش مصنوعی، زیرساخت‌های سنتی درون محل اغلب در ارائه قدرت محاسباتی و مقیاس‌پذیری مورد نیاز برای جریان‌های کاری یادگیری عمیق مدرن کوتاهی می‌کنند. در نتیجه، یادگیری عمیق مبتنی بر ابر اهمیت فزاینده ای پیدا می کند زیرا سازمان ها به دنبال راه حل های مقیاس پذیر و کارآمد برای وظایف یادگیری ماشین خود هستند. با استفاده از انعطاف پذیری، مقیاس پذیری و مقرون به صرفه بودن خدمات ابری، سازمان ها می توانند بر محدودیت های سخت افزاری غلبه کنند و توسعه و استقرار الگوریتم های پیشرفته یادگیری ماشینی را تسریع بخشند. ادغام PySpark، PyTorch، TensorFlow و Apache Airflow با خدمات وب آمازون (AWS)، از جمله Amazon Simple Storage Service (S3) و Amazon Elastic Compute Cloud (EC2)، ابزارهای قدرتمندی را برای ساخت و استقرار مدل های یادگیری عمیق در مقیاس ارائه می دهد. AWS به عنوان محبوب‌ترین ارائه‌دهنده خدمات ابری با بیشترین سهم بازار، زیرساختی قوی برای اجرای کارآمد این وظایف فراهم می‌کند. این کتاب برای دانشمندان داده، مهندسین یادگیری ماشین و متخصصان هوش مصنوعی که علاقه مند به ایجاد خطوط لوله یادگیری عمیق مقیاس پذیر در AWS هستند یا به دنبال افزایش مهارت های خود در یکپارچه سازی خدمات ابری با چارچوب های یادگیری عمیق هستند، طراحی شده است. این یک راهنمای جامع برای ساختن یک خط لوله یادگیری عمیق در AWS با استفاده از ترکیبی از PySpark، PyTorch، TensorFlow و Airflow ارائه می‌کند. ما کل گردش کار را نشان می‌دهیم، با استفاده از S3 و PySpark و پیش‌پردازش داده‌ها شروع می‌کنیم و با برنامه‌ریزی مدل برای اجرای Apache Airflow به پایان می‌رسیم. هر مرحله از خط لوله تشریح می‌شود و توضیحات واضح، مثال‌های عملی و بینش‌های برگرفته از کاربردهای دنیای واقعی ارائه می‌شود. این خط لوله چندین مزیت را ارائه می دهد. در مرحله اول، از مقیاس پذیری PySpark برای پردازش داده در مقیاس بزرگ و ظرفیت محاسباتی نمونه های EC2 برای آموزش مدل استفاده می کند و استفاده کارآمد از منابع را تضمین می کند. ثانیاً، یک رویکرد مبتنی بر ابر انعطاف‌پذیری را فراهم می‌کند و امکان مقیاس‌گذاری منابع را بر اساس نیازهای حجم کاری و تهیه آسان منابع فراهم می‌کند. ثالثاً، PySpark و Apache Airflow وظایف پردازش داده‌ها را با قابلیت‌های محاسباتی توزیع‌شده‌شان ساده می‌کنند و امکان پیش‌پردازش کارآمد، تبدیل، و هماهنگ‌سازی جریان کار را فراهم می‌کنند. چهارم، ظرفیت ذخیره سازی بزرگ آمازون S3 ذخیره سازی و بازیابی بی وقفه داده را تسهیل می کند و از پردازش مجموعه داده های عظیم پشتیبانی می کند. در نهایت، جداسازی نگرانی‌ها بین پیش پردازش (PySpark)، توسعه مدل، آموزش و ارزیابی (PyTorch، TensorFlow)، هماهنگ‌سازی مدل (Apache Airflow)، ذخیره‌سازی (S3) و محاسبات (EC2) معماری را ساده می‌کند و ماژولار بودن را افزایش می‌دهد و مدیریت جریان کار را تسهیل می‌کند. این کتاب همچنین JupyterLab و Databricks را برای بهبود بیشتر فرآیند توسعه و استقرار بررسی می‌کند. JupyterLab یک محیط محاسباتی تعاملی ایده آل برای کاوش داده ها و نمونه سازی ارائه می دهد، در حالی که Databricks یک پلت فرم مشترک برای پردازش داده های بزرگ و تجزیه و تحلیل پیشرفته ارائه می دهد. این ادغام چندین سرویس ابری و ابزارهای علم داده، یک جریان کاری سرتاسر را تقویت می‌کند و همکاری و کارایی را در سراسر خط لوله یادگیری عمیق ارتقا می‌دهد. کتاب در ده فصل تنظیم شده است. در فصل 1، خوانندگان با مبانی خطوط لوله یادگیری عمیق آشنا می شوند و بر اهمیت مقیاس پذیری در چنین چارچوب هایی تأکید می کنند. علاوه بر این، یک نمای کلی از AWS به‌عنوان پلتفرمی برای مقیاس‌پذیری ارائه شده است، که پایه‌ای را برای فصل‌های بعدی ایجاد می‌کند که عمیق‌تر در راه‌اندازی، پیکربندی و بهینه‌سازی محیط‌های یادگیری عمیق در ابر AWS می‌پردازد.

With the exponential growth of data and the increasing demand for sophisticated AI applications, traditional on-premises infrastructure often falls short in providing the computational power and scalability required for modern deep learning workflows. Consequently, cloud-based deep learning is becoming increasingly important as organizations seek scalable and efficient solutions for their machine learning tasks. By leveraging the flexibility, scalability, and cost-effectiveness of cloud services, organizations can overcome hardware limitations and accelerate the development and deployment of advanced machine learning algorithms. Integrating PySpark, PyTorch, TensorFlow, and Apache Airflow with Amazon Web Services (AWS), including Amazon Simple Storage Service (S3) and Amazon Elastic Compute Cloud (EC2), offers powerful tools for building and deploying deep learning models at scale. AWS, as the most popular cloud service provider with the largest market share, provides a robust infrastructure for executing these tasks efficiently. This book is designed for data scientists, machine learning engineers, and AI practitioners interested in building scalable deep learning pipelines on AWS or seeking to enhance their skills in integrating cloud services with deep learning frameworks. It provides a comprehensive guide to constructing a deep learning pipeline on AWS using a combination of PySpark, PyTorch, TensorFlow, and Airflow. We illustrate the entire workflow, starting with data ingestion and preprocessing using S3 and PySpark and concluding with scheduling the model to run on Apache Airflow. Each stage of the pipeline is dissected, offering clear explanations, hands-on examples, and insights drawn from real-world applications. This pipeline offers several advantages. Firstly, it capitalizes on the scalability of PySpark for large-scale data processing and the compute capacity of EC2 instances for model training, ensuring efficient utilization of resources. Secondly, a cloud-based approach provides flexibility, allowing resource scaling based on workload demands and easy provisioning of resources. Thirdly, PySpark and Apache Airflow simplify data processing tasks with their distributed computing capabilities, enabling efficient preprocessing, transformation, and workflow orchestration. Fourthly, the large storage capacity of Amazon S3 facilitates uninterrupted data storage and retrieval, supporting the processing of massive datasets. Lastly, the separation of concerns among preprocessing (PySpark), model development, training, and evaluation (PyTorch, TensorFlow), model orchestration (Apache Airflow), storage (S3), and compute (EC2) simplifies the architecture and enhances modularity, facilitating streamlined workflow management. The book also examines JupyterLab and Databricks to further enhance the development and deployment process. JupyterLab provides an interactive computing environment ideal for data exploration and prototyping, while Databricks offers a collaborative platform for big data processing and advanced analytics. This integration of multiple cloud services and data science tools fosters an end-to-end workflow, promoting collaboration and efficiency across the deep learning pipeline. The book is divided into ten chapters. In Chapter 1, readers are introduced to the fundamentals of deep learning pipelines, emphasizing the importance of scalability in such frameworks. Additionally, an overview of AWS as a platform for scalability is provided, laying the foundation for subsequent chapters that delve deeper into setting up, configuring, and optimizing deep learning environments on the AWS cloud.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Building Scalable Deep Learning Pipelines on AWS

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بیشتر بخوانید

آموزش نقاشی سیاه قلم کانال واتساپ