مجله علمی تفریحی بیبیس
0

دانلود کتاب یادگیری ماشین

بازدید 1100
  • عنوان کتاب: Machine Learning
  • نویسنده: Damien Benveniste
  • حوزه: یادگیری ماشین
  • سال انتشار: 2023
  • تعداد صفحه: 93
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 16.0 مگابایت

من هرگز از رگرسیون خطی استفاده نمی کنم! من نمی گویم شما نباید این کار را انجام دهید، من شخصاً هرگز این کار را نمی کنم. در واقع الگوریتم‌های زیادی وجود دارند که من هرگز از آنها استفاده نمی‌کنم: رگرسیون لجستیک، Naive Bayes، SVM، LDA، KNN، شبکه عصبی فید فوروارد، … من ارزشی در آن‌ها برای کارم پیدا نمی‌کنم. من همیشه می گویم که شما باید هر مدل یادگیری ماشینی را با یک الگوریتم ساده شروع کنید، اما برای من رگرسیون لجستیک (LogReg) یا رگرسیون خطی (LR) ساده نیستند! مقدار مهندسی ویژگی مورد نیاز برای به دست آوردن یک مدل عملکردی از آن الگوریتم‌ها برای من بسیار زیاد است. استفاده ساده از آن الگوریتم ها حداقل پایه مفیدی را برای من فراهم نمی کند که بتوانم از آن کار کنم. اگر عملکرد پیش‌بینی پایینی را روی یک LR یا LogReg با مهندسی ویژگی صفر مشاهده کنم، برای ارزیابی توان پیش‌بینی داده‌های زیربنایی به اندازه کافی آموزنده نیست. برای من «ساده‌ترین» مدل XGBoost است (البته این شامل LightGBM یا CatBoost می‌شود). خوب حداقل برای داده های جدولی. XGBoost به طور بومی مقادیر گمشده، متغیرهای طبقه‌بندی را کنترل می‌کند (تا حدی!)، قابل موازی‌سازی است (خیلی سریع… به اندازه کافی)، با هر تابع ضرری که ممکن است نیاز داشته باشم تمرین می‌کند، تمایل دارد تا در تعداد زیادی از ویژگی‌ها بیش از حد مناسب باشد، و بسیار غیر خطی است که آن را به یک الگوریتم بایاس بسیار کم تبدیل می کند. API آن کاملاً کامل است و فقط با تغییر چند آرگومان می توانید به دستاوردهای زیادی برسید. من به راحتی می‌توانم هر داده‌ای را بدون هیچ کاری در XGBoost پرتاب کنم و این به من یک پایه مفید می‌دهد که می‌تواند توسعه من را از آنجا هدایت کند.

I never use Linear Regression! I am not saying you shouldn’t, I personally just never do. Actually there are many algorithms I never use: Logistic Regression, Naive Bayes, SVM, LDA, KNN, Feed Forward Neural Network,… I just don’t find value in those for my work. I always say you should start any Machine Learning model development with a simple algorithm, but for me Logistic Regression (LogReg) or Linear Regression (LR) are not simple! The amount of feature engineering needed to get a performant model out of those algorithms is just too high to me. The simple use of those algorithms does not provide me with a useful minimum baseline I could work from. If I observe low predictive performance on a LR or LogReg with zero feature engineering, that is not informative enough for me to make a predictive power assessment of the underlying data. For me the “simplest” model to use is XGBoost (this includes LightGBM or CatBoost of course). Well at least for tabular data. XGBoost natively handles missing values, categorical variables (to some extent!), it is parallelizable (so fast…enough), it trains on any loss function I may need, it tends to be robust to overfitting on a large number of features, and it is highly non-linear which makes it a very low bias algorithm. Its API is pretty complete, and you can achieve a lot by just changing a couple of arguments. I can easily throw any data into XGBoost without any work and that gives me a useful baseline that can drive my development from there.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Machine Learning

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

بیشتر بخوانید