- عنوان کتاب: Practicing Trustworthy Machine Learning
- نویسنده: Yada Pruksachatkun
- حوزه: یادگیری ماشین
- سال انتشار: 2023
- تعداد صفحه: 414
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 18.1 مگابایت
ما در دنیایی زندگی میکنیم که در آن سیستمهای یادگیری ماشینی (ML) در حوزههای پرمخاطره مانند پزشکی، قانون و دفاع استفاده میشوند. تصمیمات مدل می تواند منجر به سود یا زیان اقتصادی میلیون ها یا میلیاردها دلار شود. به دلیل ماهیت پرمخاطره تصمیمات و پیامدهای آنها، برای این سیستم های ML مهم است که قابل اعتماد باشند. زمانی که سیستمهای ML ایمن نیستند، ممکن است بهطور غیرقابل پیشبینی شکست بخورند، تفاوتهای عملکردی قابلتوجهی در بین گروههای نمونه داشته باشند، و/یا برای توضیح تصمیمهای خود تلاش کنند، این میتواند یک مشکل باشد. ما این کتاب را نوشتیم تا به مدلهای ML شما کمک کنیم تا در دنیای واقعی خودشان را بایستند. اگر در حال خواندن این کتاب هستید، احتمالاً قبلاً از اهمیت فوق العاده بزرگ ML آگاه هستید. صرف نظر از زمینه های کاربردی، تکنیک های ML زندگی همه ما را تحت تأثیر قرار می دهد. اندرو نگ، بنیانگذار Google Brain، وقتی هوش مصنوعی را «الکتریسیته جدید» توصیف کرد، اغراق نکرد. به هر حال، آنچه در دست داریم به بهترین شکل می تواند به عنوان یک تقریب تابع جهانی توصیف شود. مانند برق، ML در صورت عدم استفاده صحیح می تواند خطرناک باشد. مانند یک تخلیه از یک سیم فشار قوی که با یک بالون مایلار برخورد می کند، موارد خرابی ML می تواند غیرمنتظره و ترسناک باشد. استقرار برنامه های ML در دنیای واقعی با کار بر روی مدل ها در محیط های بسته کاملاً متفاوت است. مجموعه داده های دانشگاهی اغلب تنوع کامل داده های دنیای واقعی را ندارند. دادههایی که مدلهای ما در آینده با آنها تعامل دارند، ممکن است شبیه دادههای گذشته نباشند، بهخصوص اگر کسی در دریافت این دادهها کوتاه بیاید. این میتواند شامل انواع سوگیریهایی باشد که مدل میتواند از آنها بیاموزد، در نتیجه هر کسی که آن را به کار گرفته است در یک موقعیت اخلاقی و/یا قانونی مودار قرار میدهد. وضعیت ممکن است بدتر از این واقعیت باشد که شما نمی توانید به طور کامل توضیح دهید که چرا مدل ML شما اینگونه رفتار می کند. حتی اگر همه چیز در آن جبهه خوب پیش برود، شما هنوز از جنگل خارج نشده اید. هکرها هر سال پیچیدهتر میشوند و ممکن است در نهایت متوجه شوند که چگونه دادههای حساس را فقط با پرس و جو از مدل مستقر شما به سرقت ببرند. با این حال، پیش آگهی تمام عذاب و تاریکی نیست. بهترین شیوه های به خوبی مطالعه شده برای مدیریت مجموعه داده ها، هم برای داده های دنیای واقعی و هم برای داده های مصنوعی وجود دارد. راههای زیادی برای اندازهگیری تفاوت دادههای ورودی جدید با دادههایی که از قبل دارید وجود دارد. همانطور که راههایی برای شناسایی و رفع سوگیری در ML وجود دارد، روشهای جدیدی نیز وجود دارد که خطوط لوله ML شما را به طور کلی قابل توضیح و تفسیر میکند. در مورد امنیت و استحکام، برخی از بزرگترین شرکتهای ML در جهان در حال انتشار کیتهای ابزار هستند تا به شما کمک کنند جزئیات مدل حساس را از خارجیهای فضول پنهان کنید. تمام این راههای تعمیر سیمکشی استعاری خط لوله ML شما در این کتاب مورد بحث قرار گرفتهاند، از راهحلهای کلاسیک تا لبه برش.
We live in a world where machine learning (ML) systems are used in increasingly high-stakes domains like medicine, law, and defense. Model decisions can result in economic gains or losses in the millions or billions of dollars. Because of the high-stakes nature of their decisions and consequences, it is important for these ML systems to be trustworthy. This can be a problem when the ML systems are not secure, may fail unpredictably, have notable performance disparities across sample groups, and/or struggle to explain their decisions. We wrote this book to help your ML models stand up on their own in the real world. If you’re reading this book, you are probably already aware of the incredibly outsized importance of ML. Regardless of the fields of application, ML techniques touch all of our lives. Google Brain cofounder Andrew Ng was not exaggerating when he described AI as “the new electricity”. After all, what we have on our hands could best be described as a universal function approximator. Much like electricity, ML can be dangerous if not handled properly. Like a discharge from a high-voltage wire colliding with a mylar balloon, cases of ML failure can be unexpected and scary. Deploying ML applications in the real world is quite different from working on models in closed environments. Academic datasets often do not carry the full variation of real-world data. Data that our models interact with in the future may not resemble the data of the past, especially if someone cut corners in getting this data. It could include all sorts of biases that the model could learn from, thereby putting whoever deployed it in a hairy ethical and/or legal situation. The situation may be made worse by the fact that you cannot fully explain why your ML model is behaving the way it does. Even if all goes well on those fronts, you’re not out of the woods yet. Hackers are getting more sophisticated every year and may eventually figure out how to steal sensitive data just by querying your deployed model. The prognosis isn’t all doom and gloom, though. There are well-studied best practices for curating datasets, both for real-world data and synthetic data. There are plenty of ways to measure just how different new incoming data is from the data you already have. Just as there are ways of spotting and fixing bias in ML, there are new ways of making your ML pipelines explainable and interpretable in general. As for security and robustness, some of the largest ML companies in the world are releasing tool kits for helping you obscure sensitive model details from nosy outsiders. All these ways of repairing the metaphorical wiring of your ML pipeline are discussed in this book, from classic solutions to the cutting edge.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Practicing Trustworthy Machine Learning
نظرات کاربران