- عنوان کتاب: Distributed Machine Learning with PySpark
- نویسنده: Abdelaziz Testas
- حوزه: یادگیری ماشین
- سال انتشار: 2023
- تعداد صفحه: 500
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 3.40 مگابایت
در سال های اخیر، میزان داده های تولید و جمع آوری شده توسط شرکت ها و سازمان ها به طور تصاعدی افزایش یافته است. در نتیجه، دانشمندان داده برای پردازش و تجزیه و تحلیل مقادیر زیادی از داده ها تحت فشار قرار گرفته اند و ابزارهای محاسباتی تک گره سنتی مانند Pandas و Scikit-Learn ناکافی شده اند. در پاسخ، بسیاری از دانشمندان داده به چارچوب های محاسباتی توزیع شده مانند Apache Spark با رابط مبتنی بر پایتون، PySpark روی آورده اند.
PySpark چندین مزیت نسبت به محاسبات تک گره دارد، از جمله توانایی مدیریت حجم زیادی از داده ها و پتانسیل زمان پردازش داده ها به طور قابل توجهی سریعتر. علاوه بر این، از آنجایی که PySpark بر روی Spark، یک چارچوب محاسباتی توزیع شده پرکاربرد ساخته شده است، مجموعه وسیع تری از ابزارها را برای پردازش داده و یادگیری ماشین ارائه می دهد.
در حالی که انتقال از Pandas و Scikit-Learn به PySpark ممکن است دلهره آور به نظر برسد، انتقال می تواند نسبتاً ساده باشد. Pandas/Scikit-Learn و PySpark API های مشابهی را ارائه می دهند، به این معنی که بسیاری از دانشمندان داده می توانند به راحتی از یکی به دیگری منتقل شوند.
در این زمینه، این کتاب مزایای استفاده از PySpark را نسبت به ابزارهای محاسباتی تک گره سنتی بررسی میکند و راهنماییهایی را برای دانشمندان دادهای که در حال بررسی انتقال به PySpark هستند، ارائه میکند.
در این کتاب، هدف ما ارائه یک نمای کلی از الگوریتم های اصلی یادگیری ماشین با تمرکز ویژه بر رگرسیون و طبقه بندی است. اینها تکنیک های اساسی هستند که ستون فقرات بسیاری از کاربردهای عملی یادگیری ماشین را تشکیل می دهند. ما روشهای رایجی مانند رگرسیون خطی و لجستیک، درختهای تصمیمگیری، جنگلهای تصادفی، درختهای تقویتشده با گرادیان، ماشینهای بردار پشتیبان، Naive Bayes و شبکههای عصبی را پوشش خواهیم داد. همچنین بحث خواهیم کرد که چگونه می توان این الگوریتم ها را برای مشکلات دنیای واقعی مانند پیش بینی قیمت خانه و احتمال ابتلا به دیابت و همچنین طبقه بندی ارقام دست نویس یا گونه های گل زنبق و پیش بینی خوش خیم یا بدخیم بودن تومور به کار برد. چه مبتدی باشید و چه یک متخصص با تجربه، این کتاب برای کمک به درک مفاهیم اصلی یادگیری ماشین و توسعه مهارت های مورد نیاز برای به کارگیری این روش ها در عمل طراحی شده است. این کتاب شامل 18 فصل است و چندین موضوع را پوشش می دهد. دو فصل اول بررسی میکنند که چرا مهاجرت از Pandas و Scikit-Learn به PySpark میتواند یک فرآیند یکپارچه باشد و به چالشهای انتخاب یک الگوریتم میپردازد. فصلهای 3 تا 6 برخی از مدلهای رگرسیون رایج، یعنی رگرسیون خطی چندگانه، درختهای تصمیمگیری، جنگلهای تصادفی و درختهای تقویتشده با گرادیان را میسازند، آموزش میدهند و ارزیابی میکنند و از آنها برای مقابله با برخی از وظایف دنیای واقعی مانند پیشبینی قیمت خانه استفاده میکنند. فصلهای 7 تا 12 با ساخت، آموزش و ارزیابی الگوریتمهای پرکاربرد مانند رگرسیون لجستیک، درختهای تصمیم، جنگلهای تصادفی، ماشینهای بردار پشتیبان، Naive Bayes و شبکههای عصبی به مسائل طبقهبندی میپردازند. در فصلهای 13 تا 15، سه نوع الگوریتم اضافی، یعنی سیستمهای توصیهگر، پردازش زبان طبیعی و خوشهبندی با k-means را بررسی میکنیم. در سه فصل آخر، ما با تنظیم هایپرپارامتر، خطوط لوله و استقرار مدل ها در تولید سروکار داریم.
In recent years, the amount of data generated and collected by companies and organizations has grown exponentially. As a result, data scientists have been pushed to process and analyze large amounts of data, and traditional single-node computing tools such as Pandas and Scikit-Learn have become inadequate. In response, many data scientists have turned to distributed computing frameworks such as Apache Spark, with its Python-based interface, PySpark.
PySpark has several advantages over single-node computing, including the ability to handle large volumes of data and the potential for significantly faster data processing times. Furthermore, because PySpark is built on top of Spark, a widely used distributed computing framework, it also offers a broader set of tools for data processing and machine learning.
While transitioning from Pandas and Scikit-Learn to PySpark may seem daunting, the transition can be relatively straightforward. Pandas/Scikit-Learn and PySpark offer similar APIs, which means that many data scientists can easily transition from one to the other.
In this context, this book will explore the benefits of using PySpark over traditional single-node computing tools and provide guidance for data scientists who are considering transitioning to PySpark.
In this book, we aim to provide a comprehensive overview of the main machine learning algorithms with a particular focus on regression and classification. These are fundamental techniques that form the backbone of many practical applications of machine learning. We will cover popular methods such as linear and logistic regression, decision trees, random forests, gradient-boosted trees, support vector machines, Naive Bayes, and neural networks. We will also discuss how these algorithms can be applied to real-world problems, such as predicting house prices, and the likelihood of diabetes as well as classifying handwritten digits or the species of an Iris flower and predicting whether a tumor is benign or malignant. Whether you are a beginner or an experienced practitioner, this book is designed to help you understand the core concepts of machine learning and develop the skills needed to apply these methods in practice. This book spans 18 chapters and covers multiple topics. The first two chapters examine why migration from Pandas and Scikit-Learn to PySpark can be a seamless process, and address the challenges of selecting an algorithm. Chapters 3–6 build, train, and evaluate some popular regression models, namely, multiple linear regression, decision trees, random forests, and gradient-boosted trees, and use them to deal with some real-world tasks such as predicting house prices. Chapters 7–12 deal with classification issues by building, training, and evaluating widely used algorithms such as logistic regression, decision trees, random forests, support vector machines, Naive Bayes, and neural networks. In Chapters 13–15, we examine three additional types of algorithms, namely, recommender systems, natural language processing, and clustering with k-means. In the final three chapters, we deal with hyperparameter tuning, pipelines, and deploying models into production.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
نظرات کاربران