مجله علمی تفریحی بیبیس
0

دانلود کتاب یادگیری ماشینی توزیع شده با PySpark

بازدید 1085
  • عنوان کتاب: Distributed Machine Learning with PySpark
  • نویسنده: Abdelaziz Testas
  • حوزه: یادگیری ماشین
  • سال انتشار: 2023
  • تعداد صفحه: 500
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 3.40 مگابایت

در سال های اخیر، میزان داده های تولید و جمع آوری شده توسط شرکت ها و سازمان ها به طور تصاعدی افزایش یافته است. در نتیجه، دانشمندان داده برای پردازش و تجزیه و تحلیل مقادیر زیادی از داده ها تحت فشار قرار گرفته اند و ابزارهای محاسباتی تک گره سنتی مانند Pandas و Scikit-Learn ناکافی شده اند. در پاسخ، بسیاری از دانشمندان داده به چارچوب های محاسباتی توزیع شده مانند Apache Spark با رابط مبتنی بر پایتون، PySpark روی آورده اند.
PySpark چندین مزیت نسبت به محاسبات تک گره دارد، از جمله توانایی مدیریت حجم زیادی از داده ها و پتانسیل زمان پردازش داده ها به طور قابل توجهی سریعتر. علاوه بر این، از آنجایی که PySpark بر روی Spark، یک چارچوب محاسباتی توزیع شده پرکاربرد ساخته شده است، مجموعه وسیع تری از ابزارها را برای پردازش داده و یادگیری ماشین ارائه می دهد.
در حالی که انتقال از Pandas و Scikit-Learn به PySpark ممکن است دلهره آور به نظر برسد، انتقال می تواند نسبتاً ساده باشد. Pandas/Scikit-Learn و PySpark API های مشابهی را ارائه می دهند، به این معنی که بسیاری از دانشمندان داده می توانند به راحتی از یکی به دیگری منتقل شوند.
در این زمینه، این کتاب مزایای استفاده از PySpark را نسبت به ابزارهای محاسباتی تک گره سنتی بررسی می‌کند و راهنمایی‌هایی را برای دانشمندان داده‌ای که در حال بررسی انتقال به PySpark هستند، ارائه می‌کند.
در این کتاب، هدف ما ارائه یک نمای کلی از الگوریتم های اصلی یادگیری ماشین با تمرکز ویژه بر رگرسیون و طبقه بندی است. اینها تکنیک های اساسی هستند که ستون فقرات بسیاری از کاربردهای عملی یادگیری ماشین را تشکیل می دهند. ما روش‌های رایجی مانند رگرسیون خطی و لجستیک، درخت‌های تصمیم‌گیری، جنگل‌های تصادفی، درخت‌های تقویت‌شده با گرادیان، ماشین‌های بردار پشتیبان، Naive Bayes و شبکه‌های عصبی را پوشش خواهیم داد. همچنین بحث خواهیم کرد که چگونه می توان این الگوریتم ها را برای مشکلات دنیای واقعی مانند پیش بینی قیمت خانه و احتمال ابتلا به دیابت و همچنین طبقه بندی ارقام دست نویس یا گونه های گل زنبق و پیش بینی خوش خیم یا بدخیم بودن تومور به کار برد. چه مبتدی باشید و چه یک متخصص با تجربه، این کتاب برای کمک به درک مفاهیم اصلی یادگیری ماشین و توسعه مهارت های مورد نیاز برای به کارگیری این روش ها در عمل طراحی شده است. این کتاب شامل 18 فصل است و چندین موضوع را پوشش می دهد. دو فصل اول بررسی می‌کنند که چرا مهاجرت از Pandas و Scikit-Learn به PySpark می‌تواند یک فرآیند یکپارچه باشد و به چالش‌های انتخاب یک الگوریتم می‌پردازد. فصل‌های 3 تا 6 برخی از مدل‌های رگرسیون رایج، یعنی رگرسیون خطی چندگانه، درخت‌های تصمیم‌گیری، جنگل‌های تصادفی و درخت‌های تقویت‌شده با گرادیان را می‌سازند، آموزش می‌دهند و ارزیابی می‌کنند و از آنها برای مقابله با برخی از وظایف دنیای واقعی مانند پیش‌بینی قیمت خانه استفاده می‌کنند. فصل‌های 7 تا 12 با ساخت، آموزش و ارزیابی الگوریتم‌های پرکاربرد مانند رگرسیون لجستیک، درخت‌های تصمیم، جنگل‌های تصادفی، ماشین‌های بردار پشتیبان، Naive Bayes و شبکه‌های عصبی به مسائل طبقه‌بندی می‌پردازند. در فصل‌های 13 تا 15، سه نوع الگوریتم اضافی، یعنی سیستم‌های توصیه‌گر، پردازش زبان طبیعی و خوشه‌بندی با k-means را بررسی می‌کنیم. در سه فصل آخر، ما با تنظیم هایپرپارامتر، خطوط لوله و استقرار مدل ها در تولید سروکار داریم.

In recent years, the amount of data generated and collected by companies and organizations has grown exponentially. As a result, data scientists have been pushed to process and analyze large amounts of data, and traditional single-node computing tools such as Pandas and Scikit-Learn have become inadequate. In response, many data scientists have turned to distributed computing frameworks such as Apache Spark, with its Python-based interface, PySpark.
PySpark has several advantages over single-node computing, including the ability to handle large volumes of data and the potential for significantly faster data processing times. Furthermore, because PySpark is built on top of Spark, a widely used distributed computing framework, it also offers a broader set of tools for data processing and machine learning.
While transitioning from Pandas and Scikit-Learn to PySpark may seem daunting, the transition can be relatively straightforward. Pandas/Scikit-Learn and PySpark offer similar APIs, which means that many data scientists can easily transition from one to the other.
In this context, this book will explore the benefits of using PySpark over traditional single-node computing tools and provide guidance for data scientists who are considering transitioning to PySpark.
In this book, we aim to provide a comprehensive overview of the main machine learning algorithms with a particular focus on regression and classification. These are fundamental techniques that form the backbone of many practical applications of machine learning. We will cover popular methods such as linear and logistic regression, decision trees, random forests, gradient-boosted trees, support vector machines, Naive Bayes, and neural networks. We will also discuss how these algorithms can be applied to real-world problems, such as predicting house prices, and the likelihood of diabetes as well as classifying handwritten digits or the species of an Iris flower and predicting whether a tumor is benign or malignant. Whether you are a beginner or an experienced practitioner, this book is designed to help you understand the core concepts of machine learning and develop the skills needed to apply these methods in practice. This book spans 18 chapters and covers multiple topics. The first two chapters examine why migration from Pandas and Scikit-Learn to PySpark can be a seamless process, and address the challenges of selecting an algorithm. Chapters 3–6 build, train, and evaluate some popular regression models, namely, multiple linear regression, decision trees, random forests, and gradient-boosted trees, and use them to deal with some real-world tasks such as predicting house prices. Chapters 7–12 deal with classification issues by building, training, and evaluating widely used algorithms such as logistic regression, decision trees, random forests, support vector machines, Naive Bayes, and neural networks. In Chapters 13–15, we examine three additional types of algorithms, namely, recommender systems, natural language processing, and clustering with k-means. In the final three chapters, we deal with hyperparameter tuning, pipelines, and deploying models into production.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Distributed Machine Learning with PySpark

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

بیشتر بخوانید