- عنوان کتاب: Fundamentals of Robust Machine Learning
- نویسنده: Resve Saleh
- حوزه: یادگیری ماشین
- سال انتشار: 2025
- تعداد صفحه: 409
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 10.1 مگابایت
نقاط پرت تقریباً بخشی از هر مجموعه داده دنیای واقعی هستند. آنها می توانند به طور طبیعی به عنوان بخشی از ویژگی های داده های جمع آوری شده رخ دهند. آنها همچنین می توانند به دلیل نویزهای آماری در محیط باشند که ممکن است اجتناب ناپذیر باشد. معمولاً با خطای اندازه گیری یا خطای ابزار دقیق همراه هستند. منبع دیگر خطای انسانی است، مانند اشتباهات تایپی یا تفسیر نادرست اندازه گیری یک دستگاه. اگر نقاط پرت شدید وجود داشته باشد، اغلب به آنها ناهنجاری گفته می شود. گاهی اوقات، داده های واقعی را با نامیدن آنها به صورت inliers از داده های پرت متمایز می کنند. در حالی که مقادیر پرت ممکن است بخش کوچکی از مجموعه داده را نشان دهند، تأثیر آنها می تواند بسیار مهم باشد. تکنیکهای یادگیری ماشین و علم دادهای که امروزه مورد استفاده قرار میگیرند، تا حد زیادی موارد پرت و اثرات بالقوه مضر آنها را نادیده میگیرند. برای بسیاری، موارد پرت در طول ساخت و پیشبینی مدل، تا حدودی آزاردهنده هستند. شناسایی آنها در هر دو مشکل رگرسیون و طبقه بندی دشوار است. بنابراین، نادیده گرفتن آنها و امید به بهترین ها آسان تر است. روش دیگر، تکنیکهای مختلف موقتی برای حذف آنها از مجموعه دادهها استفاده میشود، حتی در صورت خطر حذف ناخواسته دادههای ارزشمند درونی در فرآیند. اما در علم داده به نقطه ای رسیده ایم که این رویکردها دیگر قابل اجرا نیستند. در واقع، اخیراً روشهای جدیدی با پتانسیل بالایی برای رسیدگی صحیح به موارد پرت پدید آمدهاند و باید به طور کامل بررسی شوند. هزینه نادیده گرفتن این جنبه کمتر گزارش شده و اغلب نادیده گرفته شده علم داده می تواند قابل توجه باشد. به طور خاص، نقاط پرت و ناهنجاری در مجموعه دادهها ممکن است منجر به مدلهای نادرست شود که منجر به تصمیمگیریهای تجاری بد، ایجاد توضیحات مشکوک در مورد علت و معلولی، رسیدن به نتیجهگیریهای اشتباه، یا تشخیصهای پزشکی نادرست میشود. یک پیشبینی فقط به اندازه مدلی است که بر اساس آن ساخته شده است، و اگر مدل معیوب باشد، پیشبینی نیز ادامه دارد. حتی یک نقطه پرت می تواند یک مدل را غیرقابل استفاده کند اگر اتفاقی بیفتد که در مکان اشتباهی قرار دارد. شاغلین یادگیری ماشین هنوز به طور کامل کلاسی از تکنیکهای قوی را که میتواند مدلهای قابل اعتمادتر و پیشبینیهای دقیقتری را نسبت به روشهای امروزی ارائه کند، پذیرفتهاند. روشهای مستحکم برای علم داده مناسبتر هستند، بهویژه زمانی که موارد پرت وجود داشته باشد. هدف کلی این کتاب ارائه منطق و تکنیکهای یادگیری ماشینی قوی و سپس ساختن آن مواد به سمت علم داده قوی است. این کتاب یک مطالعه جامع از نقاط پرت در مجموعه داده ها و نحوه برخورد با آنها در یادگیری ماشین است. استحکام روشهای موجود مانند رگرسیون خطی با استفاده از حداقل مربعات و روش هوبر، و طبقهبندی باینری با استفاده از تلفات آنتروپی متقابل برای رگرسیون لجستیک و شبکههای عصبی، و همچنین سایر روشهای رایج از جمله k-نزدیکترین همسایه، ماشینهای بردار پشتیبان و جنگل تصادفی را ارزیابی میکند. تعدادی رویکرد جدید با استفاده از از دست دادن log-cosh ارائه میکند که در یادگیری ماشینی قوی بسیار مهم است. علاوه بر این، تکنیکهایی ارائه شدهاند که بهصورت جراحی مقادیر پرت را از مجموعه دادهها برای مشکلات رگرسیون و طبقهبندی حذف میکنند. این کتاب در مورد پیگیری روشها و رویههایی است که اثرات نامطلوبی را که موارد پرت میتوانند بر روی مدلهای ساخته شده توسط ابزارهای یادگیری ماشین داشته باشند، تشخیص میدهند. در نظر گرفته شده است که زمینه را به سمت علم داده قوی سوق دهد که در آن از ابزارها و روشهای مناسب برای رسیدگی به موارد پرت استفاده میشود. تعدادی از ایدهها و رویکردهای جدید را به تئوری و عمل یادگیری ماشینی قوی معرفی میکند و خوانندگان را تشویق میکند تا تحقیقات بیشتر در این زمینه را دنبال کنند. این کتاب دیدگاهی بین رشته ای در مورد یادگیری ماشینی قوی ارائه می دهد. پیش نیازها آشنایی با احتمالات و آمار و همچنین مبانی یادگیری ماشینی و علم داده است. هر سه منطقه به یک اندازه تحت پوشش قرار می گیرند. برای کسانی که در این زمینه تازه کار هستند و به دنبال درک مفاهیم کلیدی هستند، ما در ابتدای هر فصل، مطالب مقدماتی و آموزشی لازم را در هر حوزه موضوعی ارائه می کنیم. خوانندگانی که در سطح لیسانس از این موضوع آگاهی دارند، از این کتاب بهره زیادی خواهند برد. ممکن است عبارت “بازگشت به میانگین” را شنیده باشید. در این کتاب، ما در مورد “بازگشت به میانه” بحث می کنیم. روشهایی که در حال حاضر استفاده میشوند، میانگین دادهها را برای تخمین پارامترهای مدل هدف قرار میدهند. با این حال، میانه هدف بهتری است زیرا در حضور نقاط پرت پایدارتر است. مهم است که بدانیم علم داده باید با استفاده از روشهایی انجام شود که قابل اعتماد و پایدار هستند و این همان چیزی است که رویکرد مبتنی بر میانه میتواند ارائه دهد. دلایل خوبی وجود دارد که چرا ما اغلب عباراتی مانند “میانگین قیمت خانه” یا “درآمد متوسط خانوار” را می شنویم. این کلید ساختن مدلهای مقاوم در برابر خارج را دارد. علاوه بر این، روش های قوی ثبات و دقت را با یا بدون نقاط پرت در مجموعه داده ارائه می دهند. ما از اصطلاح “یادگیری ماشینی قوی” استفاده می کنیم زیرا بسیاری از تکنیک ها در زمینه آمار قوی منشا می گیرند…
Outliers are part of almost every real-world dataset. They can occur naturally as part of the characteristics of the data being collected. They can also be due to statistical noise in the environment that might be unavoidable. More commonly, they are associated with measurement error or instrumentation error. Another source is human error, such as typographical errors or misinterpreting the measurements of a device. If there are extreme outliers, they are often referred to as anomalies. Sometimes, the true data is differentiated from outliers by calling them inliers. While outliers may represent a small portion of the dataset, their impact can be quite significant. The machine learning and data science techniques in use today largely ignore outliers and their potentially harmful effects. For many, outliers are somewhat of a nuisance during model building and prediction. They are hard to detect in both regression and classification problems. Therefore, it is easier to ignore them and hope for the best. Alternatively, various ad hoc techniques are used to remove them from the dataset even at the risk of inadvertently removing valuable inlier data in the process. But we have reached a point in data science where these approaches are no longer viable. In fact, new methods have emerged recently with great potential to properly address outliers and they should be investigated thoroughly. The cost of ignoring this under-reported and often overlooked aspect of data science can be significant. In particular, outliers and anomalies in datasets may lead to inaccurate models that result in making bad business decisions, producing questionable explanations of cause-and-effect, arriving at the wrong conclusions, or making incorrect medical diagnoses, just to name a few. A prediction is only as good as the model on which it is based, and if the model is faulty, so goes the prediction. Even one outlier can render a model unusable if it happens to be in the wrong location. Machine learning practitioners have not yet fully embraced a class of robust techniques that would provide more reliable models and more accurate predictions than is possible with present-day methods. Robust methods are better-suited to data science, especially when outliers are present. The overall goal of this book is to provide the rationale and techniques for robust machine learning and then build on that material toward robust data science. This book is a comprehensive study of outliers in datasets and how to deal with them in machine learning. It evaluates the robustness of existing methods such as linear regression using least squares and Huber’s method, and binary classification using the cross-entropy loss for logistic regression and neural networks, as well as other popularmethods including k-nearest neighbors, support vector machines and random forest. It provides a number of new approaches using the log-cosh loss which is very important in robust machine learning. Furthermore, techniques that surgically remove outliers from datasets for both regression and classification problems are presented. The book is about the pursuit of methods and procedures that recognize the adverse effects that outliers can have on the models built by machine learning tools. It is intended to move the field toward robust data science where the proper tools and methodologies are used to handle outliers. It introduces a number of new ideas and approaches to the theory and practice of robust machine learning and encourages readers to pursue further investigation in this field. This book offers an interdisciplinary perspective on robust machine learning. The prerequisites are some familiarity with probability and statistics, as well as the basics ofmachine learning and data science. All three areas are covered in equal measure. For those who are new to the field and are looking to understand key concepts, we do provide the necessary introductory and tutorial material in each subject area at the beginning of each chapter. Readers with an undergraduate-level knowledge of the subject matter will benefit greatly from this book. You may have heard the phrase “regression to the mean.” In this book, we discuss “regression to the median.” The methods currently in use target the mean of the data to estimate the model parameters. However, the median is a better target because it is more stable in the presence of outliers. It is important to recognize that data science should be conducted using methods that are reliable and stable which is what the median-based approach can offer. There are good reasons why we frequently hear phrases like “the median house price” or “the median household income.” It holds the key to building outlier-tolerant models. Furthermore, robust methods offer stability and accuracy with or without outliers in the dataset. We use the term “robust machine learning” as many of the techniques originate in the field of robust statistics. The term “robust” may seem somewhat unusual and confusing to some, but it is a well-established term in the field of statistics. It was coined in the 1950s and has been used ever since. Note that the term robust machine learning has been used in other contexts in the literature, but here we specifically refer to “outlier-tolerant” methods. Onemay wonder why robust methods have not already been incorporated intomachine learning tools. This is in part due to the long history of the non-robust estimation methods in statistics and their natural migration to the machine learning community over the past two decades. Attempts to use the L1 loss function (which is robust) were not successful in the past, whereas the L2 loss (which is not robust) was much easier to understand and implement. It is strongly tied to the Gaussian distribution which made it even more compelling, especially in terms of the maximum likelihood procedure. The same can be said of the cross-entropy loss used in binary classification. Most practitioners today are still employing least squares and cross-entropymethods, both ofwhich are not robust in the presence of outliers.We will show that the log-cosh loss is robust, that it can be derived using maximum likelihood principles and inherits all the nice properties required of a loss function for use in machine learning. This removes all the past reasons for not using robust methods. The approach taken in this book regarding outliers is to show how to robustify existing methods and apply them to data science problems. It revisits a number of the key machine tasks such as clustering, linear regression, logistic regression, and neural networks, and describes how they can all be robustified. It also covers the use of penalty estimators in the context of robust methods. In particular, the ridge, LASSO, and aLASSO methods are described. They are evaluated in terms of their ability to mitigate the effects of outliers. In addition, some very interesting approaches are described for variable ordering using aLASSO.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Fundamentals of Robust Machine Learning
نظرات کاربران