مجله علمی تفریحی بیبیس
0

دانلود کتاب مبانی یادگیری ماشینی قوی

  • عنوان کتاب: Fundamentals of Robust Machine Learning
  • نویسنده: Resve Saleh
  • حوزه: یادگیری ماشین
  • سال انتشار: 2025
  • تعداد صفحه: 409
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 10.1 مگابایت

نقاط پرت تقریباً بخشی از هر مجموعه داده دنیای واقعی هستند. آنها می توانند به طور طبیعی به عنوان بخشی از ویژگی های داده های جمع آوری شده رخ دهند. آنها همچنین می توانند به دلیل نویزهای آماری در محیط باشند که ممکن است اجتناب ناپذیر باشد. معمولاً با خطای اندازه گیری یا خطای ابزار دقیق همراه هستند. منبع دیگر خطای انسانی است، مانند اشتباهات تایپی یا تفسیر نادرست اندازه گیری یک دستگاه. اگر نقاط پرت شدید وجود داشته باشد، اغلب به آنها ناهنجاری گفته می شود. گاهی اوقات، داده های واقعی را با نامیدن آنها به صورت inliers از داده های پرت متمایز می کنند. در حالی که مقادیر پرت ممکن است بخش کوچکی از مجموعه داده را نشان دهند، تأثیر آنها می تواند بسیار مهم باشد. تکنیک‌های یادگیری ماشین و علم داده‌ای که امروزه مورد استفاده قرار می‌گیرند، تا حد زیادی موارد پرت و اثرات بالقوه مضر آن‌ها را نادیده می‌گیرند. برای بسیاری، موارد پرت در طول ساخت و پیش‌بینی مدل، تا حدودی آزاردهنده هستند. شناسایی آنها در هر دو مشکل رگرسیون و طبقه بندی دشوار است. بنابراین، نادیده گرفتن آنها و امید به بهترین ها آسان تر است. روش دیگر، تکنیک‌های مختلف موقتی برای حذف آن‌ها از مجموعه داده‌ها استفاده می‌شود، حتی در صورت خطر حذف ناخواسته داده‌های ارزشمند درونی در فرآیند. اما در علم داده به نقطه ای رسیده ایم که این رویکردها دیگر قابل اجرا نیستند. در واقع، اخیراً روش‌های جدیدی با پتانسیل بالایی برای رسیدگی صحیح به موارد پرت پدید آمده‌اند و باید به طور کامل بررسی شوند. هزینه نادیده گرفتن این جنبه کمتر گزارش شده و اغلب نادیده گرفته شده علم داده می تواند قابل توجه باشد. به طور خاص، نقاط پرت و ناهنجاری در مجموعه داده‌ها ممکن است منجر به مدل‌های نادرست شود که منجر به تصمیم‌گیری‌های تجاری بد، ایجاد توضیحات مشکوک در مورد علت و معلولی، رسیدن به نتیجه‌گیری‌های اشتباه، یا تشخیص‌های پزشکی نادرست می‌شود. یک پیش‌بینی فقط به اندازه مدلی است که بر اساس آن ساخته شده است، و اگر مدل معیوب باشد، پیش‌بینی نیز ادامه دارد. حتی یک نقطه پرت می تواند یک مدل را غیرقابل استفاده کند اگر اتفاقی بیفتد که در مکان اشتباهی قرار دارد. شاغلین یادگیری ماشین هنوز به طور کامل کلاسی از تکنیک‌های قوی را که می‌تواند مدل‌های قابل اعتمادتر و پیش‌بینی‌های دقیق‌تری را نسبت به روش‌های امروزی ارائه کند، پذیرفته‌اند. روش‌های مستحکم برای علم داده مناسب‌تر هستند، به‌ویژه زمانی که موارد پرت وجود داشته باشد. هدف کلی این کتاب ارائه منطق و تکنیک‌های یادگیری ماشینی قوی و سپس ساختن آن مواد به سمت علم داده قوی است. این کتاب یک مطالعه جامع از نقاط پرت در مجموعه داده ها و نحوه برخورد با آنها در یادگیری ماشین است. استحکام روش‌های موجود مانند رگرسیون خطی با استفاده از حداقل مربعات و روش هوبر، و طبقه‌بندی باینری با استفاده از تلفات آنتروپی متقابل برای رگرسیون لجستیک و شبکه‌های عصبی، و همچنین سایر روش‌های رایج از جمله k-نزدیک‌ترین همسایه، ماشین‌های بردار پشتیبان و جنگل تصادفی را ارزیابی می‌کند. تعدادی رویکرد جدید با استفاده از از دست دادن log-cosh ارائه می‌کند که در یادگیری ماشینی قوی بسیار مهم است. علاوه بر این، تکنیک‌هایی ارائه شده‌اند که به‌صورت جراحی مقادیر پرت را از مجموعه داده‌ها برای مشکلات رگرسیون و طبقه‌بندی حذف می‌کنند. این کتاب در مورد پیگیری روش‌ها و رویه‌هایی است که اثرات نامطلوبی را که موارد پرت می‌توانند بر روی مدل‌های ساخته شده توسط ابزارهای یادگیری ماشین داشته باشند، تشخیص می‌دهند. در نظر گرفته شده است که زمینه را به سمت علم داده قوی سوق دهد که در آن از ابزارها و روش‌های مناسب برای رسیدگی به موارد پرت استفاده می‌شود. تعدادی از ایده‌ها و رویکردهای جدید را به تئوری و عمل یادگیری ماشینی قوی معرفی می‌کند و خوانندگان را تشویق می‌کند تا تحقیقات بیشتر در این زمینه را دنبال کنند. این کتاب دیدگاهی بین رشته ای در مورد یادگیری ماشینی قوی ارائه می دهد. پیش نیازها آشنایی با احتمالات و آمار و همچنین مبانی یادگیری ماشینی و علم داده است. هر سه منطقه به یک اندازه تحت پوشش قرار می گیرند. برای کسانی که در این زمینه تازه کار هستند و به دنبال درک مفاهیم کلیدی هستند، ما در ابتدای هر فصل، مطالب مقدماتی و آموزشی لازم را در هر حوزه موضوعی ارائه می کنیم. خوانندگانی که در سطح لیسانس از این موضوع آگاهی دارند، از این کتاب بهره زیادی خواهند برد. ممکن است عبارت “بازگشت به میانگین” را شنیده باشید. در این کتاب، ما در مورد “بازگشت به میانه” بحث می کنیم. روش‌هایی که در حال حاضر استفاده می‌شوند، میانگین داده‌ها را برای تخمین پارامترهای مدل هدف قرار می‌دهند. با این حال، میانه هدف بهتری است زیرا در حضور نقاط پرت پایدارتر است. مهم است که بدانیم علم داده باید با استفاده از روش‌هایی انجام شود که قابل اعتماد و پایدار هستند و این همان چیزی است که رویکرد مبتنی بر میانه می‌تواند ارائه دهد. دلایل خوبی وجود دارد که چرا ما اغلب عباراتی مانند “میانگین قیمت خانه” یا “درآمد متوسط ​​خانوار” را می شنویم. این کلید ساختن مدل‌های مقاوم در برابر خارج را دارد. علاوه بر این، روش های قوی ثبات و دقت را با یا بدون نقاط پرت در مجموعه داده ارائه می دهند. ما از اصطلاح “یادگیری ماشینی قوی” استفاده می کنیم زیرا بسیاری از تکنیک ها در زمینه آمار قوی منشا می گیرند…

Outliers are part of almost every real-world dataset. They can occur naturally as part of the characteristics of the data being collected. They can also be due to statistical noise in the environment that might be unavoidable. More commonly, they are associated with measurement error or instrumentation error. Another source is human error, such as typographical errors or misinterpreting the measurements of a device. If there are extreme outliers, they are often referred to as anomalies. Sometimes, the true data is differentiated from outliers by calling them inliers. While outliers may represent a small portion of the dataset, their impact can be quite significant. The machine learning and data science techniques in use today largely ignore outliers and their potentially harmful effects. For many, outliers are somewhat of a nuisance during model building and prediction. They are hard to detect in both regression and classification problems. Therefore, it is easier to ignore them and hope for the best. Alternatively, various ad hoc techniques are used to remove them from the dataset even at the risk of inadvertently removing valuable inlier data in the process. But we have reached a point in data science where these approaches are no longer viable. In fact, new methods have emerged recently with great potential to properly address outliers and they should be investigated thoroughly. The cost of ignoring this under-reported and often overlooked aspect of data science can be significant. In particular, outliers and anomalies in datasets may lead to inaccurate models that result in making bad business decisions, producing questionable explanations of cause-and-effect, arriving at the wrong conclusions, or making incorrect medical diagnoses, just to name a few. A prediction is only as good as the model on which it is based, and if the model is faulty, so goes the prediction. Even one outlier can render a model unusable if it happens to be in the wrong location. Machine learning practitioners have not yet fully embraced a class of robust techniques that would provide more reliable models and more accurate predictions than is possible with present-day methods. Robust methods are better-suited to data science, especially when outliers are present. The overall goal of this book is to provide the rationale and techniques for robust machine learning and then build on that material toward robust data science. This book is a comprehensive study of outliers in datasets and how to deal with them in machine learning. It evaluates the robustness of existing methods such as linear regression using least squares and Huber’s method, and binary classification using the cross-entropy loss for logistic regression and neural networks, as well as other popularmethods including k-nearest neighbors, support vector machines and random forest. It provides a number of new approaches using the log-cosh loss which is very important in robust machine learning. Furthermore, techniques that surgically remove outliers from datasets for both regression and classification problems are presented. The book is about the pursuit of methods and procedures that recognize the adverse effects that outliers can have on the models built by machine learning tools. It is intended to move the field toward robust data science where the proper tools and methodologies are used to handle outliers. It introduces a number of new ideas and approaches to the theory and practice of robust machine learning and encourages readers to pursue further investigation in this field. This book offers an interdisciplinary perspective on robust machine learning. The prerequisites are some familiarity with probability and statistics, as well as the basics ofmachine learning and data science. All three areas are covered in equal measure. For those who are new to the field and are looking to understand key concepts, we do provide the necessary introductory and tutorial material in each subject area at the beginning of each chapter. Readers with an undergraduate-level knowledge of the subject matter will benefit greatly from this book. You may have heard the phrase “regression to the mean.” In this book, we discuss “regression to the median.” The methods currently in use target the mean of the data to estimate the model parameters. However, the median is a better target because it is more stable in the presence of outliers. It is important to recognize that data science should be conducted using methods that are reliable and stable which is what the median-based approach can offer. There are good reasons why we frequently hear phrases like “the median house price” or “the median household income.” It holds the key to building outlier-tolerant models. Furthermore, robust methods offer stability and accuracy with or without outliers in the dataset. We use the term “robust machine learning” as many of the techniques originate in the field of robust statistics. The term “robust” may seem somewhat unusual and confusing to some, but it is a well-established term in the field of statistics. It was coined in the 1950s and has been used ever since. Note that the term robust machine learning has been used in other contexts in the literature, but here we specifically refer to “outlier-tolerant” methods. Onemay wonder why robust methods have not already been incorporated intomachine learning tools. This is in part due to the long history of the non-robust estimation methods in statistics and their natural migration to the machine learning community over the past two decades. Attempts to use the L1 loss function (which is robust) were not successful in the past, whereas the L2 loss (which is not robust) was much easier to understand and implement. It is strongly tied to the Gaussian distribution which made it even more compelling, especially in terms of the maximum likelihood procedure. The same can be said of the cross-entropy loss used in binary classification. Most practitioners today are still employing least squares and cross-entropymethods, both ofwhich are not robust in the presence of outliers.We will show that the log-cosh loss is robust, that it can be derived using maximum likelihood principles and inherits all the nice properties required of a loss function for use in machine learning. This removes all the past reasons for not using robust methods. The approach taken in this book regarding outliers is to show how to robustify existing methods and apply them to data science problems. It revisits a number of the key machine tasks such as clustering, linear regression, logistic regression, and neural networks, and describes how they can all be robustified. It also covers the use of penalty estimators in the context of robust methods. In particular, the ridge, LASSO, and aLASSO methods are described. They are evaluated in terms of their ability to mitigate the effects of outliers. In addition, some very interesting approaches are described for variable ordering using aLASSO.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Fundamentals of Robust Machine Learning

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بیشتر بخوانید

X
آموزش نقاشی سیاه قلم کانال ایتا