- عنوان کتاب: Trustworthy Machine Learning under Imperfect Data
- نویسنده: Bo Han, Tongliang Liu
- حوزه: یادگیری ماشین
- سال انتشار: 2025
- تعداد صفحه: 297
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 11.1 مگابایت
یادگیری ماشین به طور فزایندهای در برنامههای کاربردی حیاتی برای تصمیمگیری رواج یافته است. با این حال، سناریوهای استقرار در دنیای واقعی اغلب از فرضیات ایدهآل که در آن دادهها کاملاً برچسبگذاری شده، به طور یکسان توزیع شده و عاری از دخالتهای مخرب هستند، منحرف میشوند. بنابراین، اطمینان از قابل اعتماد بودن یادگیری ماشین به عنوان یکی از مهمترین چالشها در تحقیقات یادگیری ماشین ظهور کرده است. در عمل، سیستمهای یادگیری ماشین اغلب با دادههای ناقص به سه شکل اصلی مواجه میشوند: برچسبهای پر سر و صدا به دلیل خطاهای حاشیهنویسی، نمونههای خصمانه ساخته شده برای گمراه کردن پیشبینیها، و نمونههای خارج از توزیع که با دادههای آموزشی متفاوت هستند. این چالشها نشاندهنده آسیبپذیریهای حیاتی هستند که میتوانند منجر به شکستهای فاجعهبار شوند، مانند تشخیص اشتباه در تصویربرداری پزشکی، تراکنشهای جعلی که سیستمهای ایمنی مالی را دور میزنند و خطرات ایمنی در وسایل نقلیه خودران. این کتاب کاوشی جامع از یادگیری ماشین قابل اعتماد در سناریوهای دادههای ناقص ارائه میدهد. از طریق شش فصل ساختار یافته، ما یک چارچوب یکپارچه ارائه میدهیم که شامل دستههای اصلی نقص دادهها و استراتژیهای کاهش آنها است. فصل 1 مفاهیم اساسی یادگیری ماشین قابل اعتماد را بیان میکند و یک طبقهبندی جامع از سناریوهای دادههای ناقص ارائه میدهد. ما اصول اصلی استحکام، ایمنی و قابلیت اطمینان را که قابلیت اعتماد را تعریف میکنند، معرفی میکنیم و در عین حال سه نوع اصلی دادههای ناقص را دستهبندی میکنیم: برچسبهای نویزی، نمونههای تخاصمی و نمونههای خارج از توزیع. فصل 2 بر یادگیری ماشین قابل اعتماد با برچسبهای نویزی تمرکز دارد، رویکردهای یادگیری آماری، روشهای یادگیری عمیق، کاربردها در مدلهای بیش پارامتری و گذار طبیعی از یادگیری برچسب نویزی به الگوهای یادگیری با نظارت ضعیف را بررسی میکند. ما بررسی میکنیم که چگونه فرضیات مختلف نویز – نویز متقارن، وابسته به کلاس و وابسته به نمونه – منجر به ویژگیهای نظری متمایز و راهحلهای عملی میشوند و هم تضمینهای نظری و هم اعتبارسنجی تجربی را ارائه میدهند. فصل 3 به نمونههای تخاصمی از سه دیدگاه مکمل میپردازد: روشهای یادگیری آماری که روابط گذار بین برچسبهای تخاصمی و طبیعی را مدلسازی میکنند، رویکردهای یادگیری عمیق که استحکام را از طریق آموزش تخاصمی افزایش میدهند و روشهای مبتنی بر انتشار که اختلالات تخاصمی را در مرحله پیشپردازش تصفیه یا تشخیص میدهند. این رویکرد چندوجهی، پوشش جامعی از استراتژیهای دفاعی در کل خط لوله یادگیری ماشین ارائه میدهد. فصل ۴ چالشهای دادههای خارج از توزیع را از دو منظر بررسی میکند: تشخیص و تعمیم. در تشخیص خارج از توزیع، روشهایی را برای شناسایی زمانی که نمونههای آزمایشی خارج از فضای برچسب آموزشی قرار میگیرند، بررسی میکنیم و مدلها را قادر میسازیم از پیشبینیهای غیرقابل اعتماد خودداری کنند. در تعمیم خارج از توزیع، تکنیکهایی را برای بهبود تعمیم در دامنهها و توزیعهای مختلف بررسی میکنیم و بر کمینهسازی ریسک ثابت و رویکردهای مبتنی بر تضاد تمرکز میکنیم. فصل ۵ کاوش ما را به دامنههای کاربردی پیشرفته که نمایانگر لبه تیز تحقیقات یادگیری ماشین قابل اعتماد هستند، گسترش میدهد: یادگیری فدرال، یادگیری گراف و مدلهای بنیادی. این دامنهها چالشهای منحصر به فردی را ارائه میدهند که اهمیت ملاحظات قابلیت اعتماد را تقویت میکنند. یادگیری فدرال نگرانیهای مربوط به حریم خصوصی و ایمنی را در محیطهای توزیعشده مطرح میکند، یادگیری گراف نیاز به مدیریت ساختارهای داده رابطهای پیچیده با الگوهای آسیبپذیری جدید دارد و مدلهای بنیادی نیاز به قابلیت اعتماد در مقیاس بیسابقهای دارند. فصل ۶ بینشهای کلیدی فصلهای قبلی را ترکیب میکند و دیدگاهی آیندهنگر در مورد مسیرهای آینده تحقیقات یادگیری ماشین قابل اعتماد ارائه میدهد. ما در مورد چالشهای نوظهور بحث میکنیم، فرصتهای تحقیقاتی امیدوارکننده را شناسایی میکنیم و راهنماییهای عملی برای پیادهسازی سیستمهای یادگیری ماشینی قابل اعتماد در کاربردهای دنیای واقعی ارائه میدهیم. امیدواریم این کتاب پیشزمینهای مقدماتی از مفهوم و پوشش یادگیری ماشینی قابل اعتماد ارائه دهد و برخی از پیشرفتهای پیشرفته در تحقیقات یادگیری ماشینی قابل اعتماد را خلاصه کند. این میتواند خوانندگان را برای شروع مسیری سریع برای همگام شدن با معضلات و چالشهای فعلی در این حوزه تحقیقاتی، انجام تحقیقات جدید بر روی روشهای موجود و تطبیق اکتشافات مرتبط با سناریوهایی که به سیستمهای یادگیری ماشینی قابل اعتماد نیاز دارند، آماده کند. در نهایت، مایلیم از اعضای مرکز هوش مصنوعی سیدنی، آزمایشگاه TML و گروه TMLR که در این کتاب مشارکت داشتهاند، تشکر کنیم. آنها عبارتند از: یینگبین بای، ژو هوانگ، مویانگ لی، شیوچوان لی، رونکی لین، یوهائو وو، یو یائو، چائوجیان یو، سوکین یوان و داوی ژو از مرکز هوش مصنوعی سیدنی و آزمایشگاه TML؛ و چنتائو کائو، یونگ کیانگ چن، هائوانگ چی، رونگ دای، ژن فانگ، شیائو فنگ، ژو جیانگ، ژوان لی، چنشی لیو، فنگ لیو، شیانگیو لو، ژنهنگ تانگ، کیژو وانگ، بینگهوی زی، ژیقین یانگ، جیانگ چائو یائو، ژونگ ژونگ، ژونگ ژونگ و …
Machine learning has become increasingly prevalent in decision-critical applications. However, real-world deployment scenarios often deviate from idealized assumptions where data are perfectly labeled, identically distributed, and free from malicious interference. Therefore, ensuring the trustworthiness of machine learning has emerged as one of the most pressing challenges in machine learning research. In practice, machine learning systems frequently encounter imperfect data in three main forms: noisy labels due to annotation errors, adversarial examples crafted to mislead predictions, and out-of-distribution samples that differ from training data. These challenges represent critical vulnerabilities that can lead to catastrophic failures, such as misdiagnosis in medical imaging, fraudulent transactions bypassing financial safety systems, and safety hazards in autonomous vehicles. This book provides a comprehensive exploration of trustworthy machine learning in imperfect data scenarios. Through six structured chapters, we present a unified framework encompassing the major categories of data imperfections and their mitigation strategies. Chapter 1 establishes the fundamental concepts of trustworthy machine learning and provides a comprehensive taxonomy of imperfect data scenarios. We introduce the core principles of robustness, safety, and reliability that define trustworthiness, while categorizing the three primary types of imperfect data: noisy labels, adversarial examples, and out-of-distribution samples. Chapter 2 focuses on trustworthy machine learning with noisy labels, exploring statistical learning approaches, deep learning methodologies, applications to overparameterized models, and the natural transition from noisy label learning to weakly supervised learning paradigms. We examine how different noise assumptions— symmetric, class-dependent, and instance-dependent noise—lead to distinct theoretical properties and practical solutions, providing both theoretical guarantees and empirical validation. Chapter 3 addresses adversarial examples from three complementary perspectives: statistical learning methods that model the transition relationships between adversarial and natural labels, deep learning approaches that enhance robustness through adversarial training, and diffusion-based methods that purify or detect adversarial perturbations in the preprocessing stage. This multifaceted approach provides comprehensive coverage of defense strategies throughout the entire machine learning pipeline. Chapter 4 examines out-of-distribution data challenges through two perspectives: detection and generalization. In out-of-distribution detection, we explore methods for identifying when test samples fall outside the training label space, enabling models to abstain from making unreliable predictions. In out-of-distribution generalization, we investigate techniques to improve generalization across different domains and distributions, focusing on invariant risk minimization and contrastivebased approaches. Chapter 5 extends our exploration to advanced application domains that represent the cutting edge of trustworthy machine learning research: federated learning, graph learning, and foundation models. These domains present unique challenges that amplify the importance of trustworthiness considerations. Federated learning introduces privacy and safety concerns in distributed settings, graph learning requires handling complex relational data structures with novel vulnerability patterns, and foundation models demand trustworthiness at unprecedented scale. Chapter 6 synthesizes the key insights from previous chapters and provides a forward-looking perspective on the future directions of trustworthy machine learning research. We discuss emerging challenges, identify promising research opportunities, and offer practical guidance for implementing trustworthy machine learning systems in real-world applications. We hope this book provides an introductory background to the concept and coverage of trustworthy machine learning and summarizes some of the cutting-edge progress in trustworthy machine learning research. This can prepare the readers to embark on a fast track to keep up with the current dilemmas and challenges in this research area, conducting new research upon existing methods, and adapting relevant heuristics to scenarios that require trustworthy machine learning systems. Finally, we would like to thank the members of the Sydney AI Centre, TML Lab, and TMLR Group who have contributed to this book. They are: Yingbin Bai, Zhuo Huang, Muyang Li, Xiuchuan Li, Runqi Lin, Yuhao Wu, Yu Yao, Chaojian Yu, Suqin Yuan, and Dawei Zhou from the Sydney AI Centre and TML Lab; and Chentao Cao, Yongqiang Chen, Haoang Chi, Rong Dai, Zhen Fang, Xiao Feng, Xue Jiang, Xuan Li, Chenxi Liu, Feng Liu, Xiangyu Lu, Zhenheng Tang, Qizhou Wang, Binghui Xie, Zhiqin Yang, Jiangchao Yao, Shuhai Zhang, Yonggang Zhang, Zhun Zhong, Zhanke Zhou, and Jianing Zhu from the TMLR Group (listed alphabetically within each group).
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

نظرات کاربران