- عنوان کتاب: HANDBOOK OF STATISTICAL ANALYSIS: AI AND ML APPLICATIONS
- نویسنده: Peter A. Lachenbruch
- حوزه: تجزیه و تحلیل آماری
- سال انتشار: 2025
- تعداد صفحه: 461
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 20.5 مگابایت
این کتاب به کاربر مبتدی کمک می کند تا با داده کاوی آشنا شود. اساسا، داده کاوی انجام تجزیه و تحلیل داده ها (یا آمار) بر روی مجموعه داده ها (اغلب بزرگ) است که از منابع بالقوه بسیاری به دست آمده اند. به این ترتیب، ماینر ممکن است کنترلی بر داده های ورودی نداشته باشد اما باید به منابعی که داده ها را جمع آوری کرده اند تکیه کند. به این ترتیب، مشکلاتی وجود دارد که هر داده کاوی باید هنگام شروع (یا تکمیل) یک عملیات کاوی از آنها آگاه باشد. من به شدت با مطالب مربوط به “10 اشتباه داده کاوی برتر” که چک لیست ارزشمندی را ارائه می دهد، همخوانی داشتم: • مطمئن شوید که یک متغیر پاسخ و متغیرهای پیش بینی کننده دارید—و اینکه آنها به درستی اندازه گیری شده اند. • مراقب نصب بیش از حد باشید. با تعداد زیادی متغیر، با اکثر برنامههای آماری تطبیق مدلهای بسیار پیچیده آسان است، اما نمیتوان آنها را بازتولید کرد. خوب است بخشی از نمونه را ذخیره کنید تا از آن برای آزمایش مدل استفاده کنید. روش های مختلفی در این کتاب ارائه شده است. • فقط از یک روش استفاده نکنید. تنها استفاده از رگرسیون خطی می تواند مشکل ساز باشد. سعی کنید پاسخ را دوگانه کنید یا آن را دسته بندی کنید تا غیرخطی بودن در متغیر پاسخ حذف شود. اغلب، خوشه هایی از مقادیر در صفر وجود دارد که هر گونه فرض نرمال بودن را به هم می زند. این، البته، اطلاعات را از دست می دهد، بنابراین ممکن است بخواهید یک متغیر پاسخ پیوسته را دسته بندی کنید و از جایگزینی برای رگرسیون استفاده کنید. به طور مشابه، متغیرهای پیشبینیکننده ممکن است نیاز داشته باشند که بهعنوان عوامل بهجای پیشبینیکنندههای خطی در نظر گرفته شوند. یک مثال کلاسیک استفاده از وضعیت تاهل یا نژاد به عنوان یک پیش بینی خطی زمانی است که نظمی وجود ندارد. • پرسیدن سوال اشتباه – زمانی که به دنبال یک پدیده نادر هستید، ممکن است شناسایی رایج ترین الگو مفید باشد. اینها ممکن است به تحلیلهای پیچیده منجر شوند، مانند مورد 3، اما ممکن است از نظر مفهومی نیز ساده باشند. مجدداً، ممکن است لازم باشد مراقب باشید که داده ها را بیش از حد مناسب نکنید. • شیفته داده ها نشوید. ممکن است سابقه قابل توجهی از داده های قبلی یا کارشناسان حوزه وجود داشته باشد که می تواند به مدل سازی کمک کند. • در مورد استفاده از یک متغیر نتیجه (یا متغیری که بسیار با متغیر نتیجه همبستگی دارد) و در مورد نتیجه هیجان زده شوید، محتاط باشید. پیش بینی کننده ها باید پیش بینی کننده های “مناسب” باشند به این معنا که (الف) قبل از نتیجه اندازه گیری می شوند و (ب) تابعی از نتیجه نیستند. • موارد پرت را بدون توجیه محکم دور نریزید. صرفاً به این دلیل که یک مشاهده خارج از خط با دیگران است، نباید آن را نادیده گرفت. شما باید شرایطی را که منجر به ارزش شده است بررسی کنید. در هر صورت، انجام تجزیه و تحلیل با مشاهدات و مشاهدات حذف شده برای تعیین حساسیت نتایج به موارد پرت مفید است. • برون یابی یک راه خوب برای شکست است. بهترین مثال بازار سهام است. داده های خود را حفظ کنید و اگر باید به بیرون بروید، احتیاط های زیادی را در نظر بگیرید. با این حال بهتر است، انگیزه برون یابی را مهار کنید. مراقب باشید که تصاویر اغلب بسیار ساده هستند و ممکن است گمراه شویم. مبارزات سیاسی مشکلات پیچیده را بیش از حد ساده می کند (“رقیب من می خواهد مالیات ها را افزایش دهد”؛ “رقیب من ما را به جنگ خواهد برد”) زمانی که واقعیت ها ممکن است حاکی از آن باشد که ما نیازهای زیرساختی داریم که فقط با بودجه جدید قابل رسیدگی است یا توسط افراد بد حمله شده ایم. مراقب منابع داده خود باشید. اگر چندین مجموعه از داده ها را با هم ترکیب می کنید، آنها باید چند استاندارد را رعایت کنند: • تعاریف متغیرهایی که ادغام می شوند باید یکسان باشند. اغلب، آنها نزدیک هستند اما دقیق نیستند (به ویژه در متاآنالیز، جایی که مطالعات بالینی ممکن است به دلیل موسسات پزشکی یا آزمایشگاه های مختلف تعاریف متفاوتی داشته باشند). • مراقب مقادیر از دست رفته باشید. اغلب، هنگامی که چندین مجموعه داده با هم ادغام می شوند، مقادیر گمشده می توانند القا شوند: یک متغیر در مجموعه داده دیگری وجود ندارد. نام متغیری که فکر میکردید یک متغیر منحصربهفرد بود، در دو مجموعه کمی متفاوت بود، بنابراین در نهایت با دو متغیر مواجه میشوید که هر دو مقادیر زیادی از دست دادهاند. • نحوه برخورد با مقادیر از دست رفته می تواند بسیار مهم باشد. در یک مثال، من از موارد کامل استفاده کردم و نیمی از نمونه خود را از دست دادم. تمام متغیرها حداقل 85 درصد کامل بودن داشتند، اما وقتی در کنار هم قرار گرفتند، نمونه نیمی از داده ها را از دست داد. مجموع مربعات باقیمانده از یک رگرسیون گام به گام حدود 8 بود. وقتی متغیرهای بیشتری را با استفاده از جایگزینی میانگین وارد کردم، تقریباً همان مجموعه متغیرهای پیش بینی ظاهر شد، اما مجموع مجذورهای باقیمانده 20 بود. سپس از انتساب های متعدد استفاده کردم و تقریباً همان مجموعه پیش بینی کننده ها را پیدا کردم، اما مجموع باقیمانده ای از مجذورات من را پیدا کردم. جایگزینی نسبتاً خوش بینانه است اما مطمئناً بهتر از تکیه بر موارد کامل است. با استفاده از رگرسیون گام به گام، تکرار آن با یک بوت استرپ یا با انباشت چندگانه مفید است. با این حال، با مجموعه داده های بزرگ، این رویکرد ممکن است از نظر محاسباتی گران باشد. برای نتیجه گیری، مطالب زیادی در این کتاب راهنما وجود دارد که مطالعه را جبران می کند.
This book will help the novice user become familiar with data mining. Basically, data mining is performing data analysis (or statistics) on data sets (often large) that have been obtained from potentially many sources. As such, the miner may not have control of the input data but must rely on sources that have gathered the data. As such, there are problems that every data miner must be aware of as they begin (or complete) a mining operation. I strongly resonated with the material on “The Top 10 Data Mining Mistakes,” which gives a worthwhile checklist: • Ensure you have a response variable and predictor variables—and that they are correctly measured. • Beware of overfitting. With scads of variables, it is easy with most statistical programs to fit incredibly complex models, but they cannot be reproduced. It is good to save part of the sample to use to test the model. Various methods are offered in this book. • Don’t use only one method. Using only linear regression can be a problem. Try dichotomizing the response or categorizing it to remove nonlinearities in the response variable. Often, there are clusters of values at zero, which messes up any normality assumption. This, of course, loses information, so you may want to categorize a continuous response variable and use an alternative to regression. Similarly, predictor variables may need to be treated as factors rather than linear predictors. A classic example is using marital status or race as a linear predictor when there is no order. • Asking the wrong question—when looking for a rare phenomenon, it may be helpful to identify the most common pattern. These may lead to complex analyses, as in item 3, but they may also be conceptually simple. Again, you may need to take care that you don’t overfit the data. • Don’t become enamored with the data. There may be a substantial history from earlier data or from domain experts that can help with the modeling. • Be wary of using an outcome variable (or one highly correlated with the outcome variable) and becoming excited about the result. The predictors should be “proper” predictors in the sense that they (a) are measured prior to the outcome and (b) are not a function of the outcome. • Do not discard outliers without solid justification. Just because an observation is out of line with others, it shouldn’t be ignored. You must check the circumstances that led to the value. In any event, it is useful to conduct the analysis with the observation(s) included and excluded to determine the sensitivity of the results to the outlier. • Extrapolating is a fine way to go broke; the best example is the stock market. Stick within your data and if you must go outside, put plenty of caveats. Better still, restrain the impulse to extrapolate. Beware that pictures are often far too simple and we can be misled. Political campaigns oversimplify complex problems (“my opponent wants to raise taxes”; “my opponent will take us to war”) when the realities may imply we have some infrastructure needs that can be handled only with new funding or we have been attacked by some bad guys. Be wary of your data sources. If you are combining several sets of data, they need to meet a few standards: • The definitions of variables that are being merged should be identical. Often, they are close but not exact (especially in metaanalysis, where clinical studies may have somewhat different definitions due to different medical institutions or laboratories). • Be careful about missing values. Often, when multiple data sets are merged, missing values can be induced: one variable isn’t present in another data set; what you thought was a unique variable name was slightly different in the two sets, so you end up with two variables that both have a lot of missing values. • How you handle missing values can be crucial. In one example, I used complete cases and lost half of my sample; all variables had at least 85% completeness, but when put together, the sample lost half of the data. The residual sum of squares from a stepwise regression was about 8. When I included more variables using mean replacement, almost the same set of predictor variables surfaced, but the residual sum of squares was 20. I then used multiple imputations and found approximately the same set of predictors but had a residual sum of squares (median of 20 imputations) of 25. I find that mean replacement is rather optimistic but surely better than relying on only complete cases. Using stepwise regression, I find it useful to replicate it with a bootstrap or with multiple imputations. However, with large data sets, this approach may be expensive computationally. To conclude, there is a wealth of material in this handbook that will repay study.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: HANDBOOK OF STATISTICAL ANALYSIS: AI AND ML APPLICATIONS
نظرات کاربران