- عنوان کتاب: Machine Learning
- نویسنده: Damien Benveniste
- حوزه: یادگیری ماشین
- سال انتشار: 2023
- تعداد صفحه: 93
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 16.0 مگابایت
من هرگز از رگرسیون خطی استفاده نمی کنم! من نمی گویم شما نباید این کار را انجام دهید، من شخصاً هرگز این کار را نمی کنم. در واقع الگوریتمهای زیادی وجود دارند که من هرگز از آنها استفاده نمیکنم: رگرسیون لجستیک، Naive Bayes، SVM، LDA، KNN، شبکه عصبی فید فوروارد، … من ارزشی در آنها برای کارم پیدا نمیکنم. من همیشه می گویم که شما باید هر مدل یادگیری ماشینی را با یک الگوریتم ساده شروع کنید، اما برای من رگرسیون لجستیک (LogReg) یا رگرسیون خطی (LR) ساده نیستند! مقدار مهندسی ویژگی مورد نیاز برای به دست آوردن یک مدل عملکردی از آن الگوریتمها برای من بسیار زیاد است. استفاده ساده از آن الگوریتم ها حداقل پایه مفیدی را برای من فراهم نمی کند که بتوانم از آن کار کنم. اگر عملکرد پیشبینی پایینی را روی یک LR یا LogReg با مهندسی ویژگی صفر مشاهده کنم، برای ارزیابی توان پیشبینی دادههای زیربنایی به اندازه کافی آموزنده نیست. برای من «سادهترین» مدل XGBoost است (البته این شامل LightGBM یا CatBoost میشود). خوب حداقل برای داده های جدولی. XGBoost به طور بومی مقادیر گمشده، متغیرهای طبقهبندی را کنترل میکند (تا حدی!)، قابل موازیسازی است (خیلی سریع… به اندازه کافی)، با هر تابع ضرری که ممکن است نیاز داشته باشم تمرین میکند، تمایل دارد تا در تعداد زیادی از ویژگیها بیش از حد مناسب باشد، و بسیار غیر خطی است که آن را به یک الگوریتم بایاس بسیار کم تبدیل می کند. API آن کاملاً کامل است و فقط با تغییر چند آرگومان می توانید به دستاوردهای زیادی برسید. من به راحتی میتوانم هر دادهای را بدون هیچ کاری در XGBoost پرتاب کنم و این به من یک پایه مفید میدهد که میتواند توسعه من را از آنجا هدایت کند.
I never use Linear Regression! I am not saying you shouldn’t, I personally just never do. Actually there are many algorithms I never use: Logistic Regression, Naive Bayes, SVM, LDA, KNN, Feed Forward Neural Network,… I just don’t find value in those for my work. I always say you should start any Machine Learning model development with a simple algorithm, but for me Logistic Regression (LogReg) or Linear Regression (LR) are not simple! The amount of feature engineering needed to get a performant model out of those algorithms is just too high to me. The simple use of those algorithms does not provide me with a useful minimum baseline I could work from. If I observe low predictive performance on a LR or LogReg with zero feature engineering, that is not informative enough for me to make a predictive power assessment of the underlying data. For me the “simplest” model to use is XGBoost (this includes LightGBM or CatBoost of course). Well at least for tabular data. XGBoost natively handles missing values, categorical variables (to some extent!), it is parallelizable (so fast…enough), it trains on any loss function I may need, it tends to be robust to overfitting on a large number of features, and it is highly non-linear which makes it a very low bias algorithm. Its API is pretty complete, and you can achieve a lot by just changing a couple of arguments. I can easily throw any data into XGBoost without any work and that gives me a useful baseline that can drive my development from there.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Machine Learning
نظرات کاربران