0

دانلود کتاب یادگیری ماشین قابل اعتماد تحت داده‌های ناقص

  • عنوان کتاب: Trustworthy Machine Learning under Imperfect Data
  • نویسنده: Bo Han, Tongliang Liu
  • حوزه: یادگیری ماشین
  • سال انتشار: 2025
  • تعداد صفحه: 297
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 11.1 مگابایت

یادگیری ماشین به طور فزاینده‌ای در برنامه‌های کاربردی حیاتی برای تصمیم‌گیری رواج یافته است. با این حال، سناریوهای استقرار در دنیای واقعی اغلب از فرضیات ایده‌آل که در آن داده‌ها کاملاً برچسب‌گذاری شده، به طور یکسان توزیع شده و عاری از دخالت‌های مخرب هستند، منحرف می‌شوند. بنابراین، اطمینان از قابل اعتماد بودن یادگیری ماشین به عنوان یکی از مهمترین چالش‌ها در تحقیقات یادگیری ماشین ظهور کرده است. در عمل، سیستم‌های یادگیری ماشین اغلب با داده‌های ناقص به سه شکل اصلی مواجه می‌شوند: برچسب‌های پر سر و صدا به دلیل خطاهای حاشیه‌نویسی، نمونه‌های خصمانه ساخته شده برای گمراه کردن پیش‌بینی‌ها، و نمونه‌های خارج از توزیع که با داده‌های آموزشی متفاوت هستند. این چالش‌ها نشان‌دهنده آسیب‌پذیری‌های حیاتی هستند که می‌توانند منجر به شکست‌های فاجعه‌بار شوند، مانند تشخیص اشتباه در تصویربرداری پزشکی، تراکنش‌های جعلی که سیستم‌های ایمنی مالی را دور می‌زنند و خطرات ایمنی در وسایل نقلیه خودران. این کتاب کاوشی جامع از یادگیری ماشین قابل اعتماد در سناریوهای داده‌های ناقص ارائه می‌دهد. از طریق شش فصل ساختار یافته، ما یک چارچوب یکپارچه ارائه می‌دهیم که شامل دسته‌های اصلی نقص داده‌ها و استراتژی‌های کاهش آنها است. فصل 1 مفاهیم اساسی یادگیری ماشین قابل اعتماد را بیان می‌کند و یک طبقه‌بندی جامع از سناریوهای داده‌های ناقص ارائه می‌دهد. ما اصول اصلی استحکام، ایمنی و قابلیت اطمینان را که قابلیت اعتماد را تعریف می‌کنند، معرفی می‌کنیم و در عین حال سه نوع اصلی داده‌های ناقص را دسته‌بندی می‌کنیم: برچسب‌های نویزی، نمونه‌های تخاصمی و نمونه‌های خارج از توزیع. فصل 2 بر یادگیری ماشین قابل اعتماد با برچسب‌های نویزی تمرکز دارد، رویکردهای یادگیری آماری، روش‌های یادگیری عمیق، کاربردها در مدل‌های بیش پارامتری و گذار طبیعی از یادگیری برچسب نویزی به الگوهای یادگیری با نظارت ضعیف را بررسی می‌کند. ما بررسی می‌کنیم که چگونه فرضیات مختلف نویز – نویز متقارن، وابسته به کلاس و وابسته به نمونه – منجر به ویژگی‌های نظری متمایز و راه‌حل‌های عملی می‌شوند و هم تضمین‌های نظری و هم اعتبارسنجی تجربی را ارائه می‌دهند. فصل 3 به نمونه‌های تخاصمی از سه دیدگاه مکمل می‌پردازد: روش‌های یادگیری آماری که روابط گذار بین برچسب‌های تخاصمی و طبیعی را مدل‌سازی می‌کنند، رویکردهای یادگیری عمیق که استحکام را از طریق آموزش تخاصمی افزایش می‌دهند و روش‌های مبتنی بر انتشار که اختلالات تخاصمی را در مرحله پیش‌پردازش تصفیه یا تشخیص می‌دهند. این رویکرد چندوجهی، پوشش جامعی از استراتژی‌های دفاعی در کل خط لوله یادگیری ماشین ارائه می‌دهد. فصل ۴ چالش‌های داده‌های خارج از توزیع را از دو منظر بررسی می‌کند: تشخیص و تعمیم. در تشخیص خارج از توزیع، روش‌هایی را برای شناسایی زمانی که نمونه‌های آزمایشی خارج از فضای برچسب آموزشی قرار می‌گیرند، بررسی می‌کنیم و مدل‌ها را قادر می‌سازیم از پیش‌بینی‌های غیرقابل اعتماد خودداری کنند. در تعمیم خارج از توزیع، تکنیک‌هایی را برای بهبود تعمیم در دامنه‌ها و توزیع‌های مختلف بررسی می‌کنیم و بر کمینه‌سازی ریسک ثابت و رویکردهای مبتنی بر تضاد تمرکز می‌کنیم. فصل ۵ کاوش ما را به دامنه‌های کاربردی پیشرفته که نمایانگر لبه تیز تحقیقات یادگیری ماشین قابل اعتماد هستند، گسترش می‌دهد: یادگیری فدرال، یادگیری گراف و مدل‌های بنیادی. این دامنه‌ها چالش‌های منحصر به فردی را ارائه می‌دهند که اهمیت ملاحظات قابلیت اعتماد را تقویت می‌کنند. یادگیری فدرال نگرانی‌های مربوط به حریم خصوصی و ایمنی را در محیط‌های توزیع‌شده مطرح می‌کند، یادگیری گراف نیاز به مدیریت ساختارهای داده رابطه‌ای پیچیده با الگوهای آسیب‌پذیری جدید دارد و مدل‌های بنیادی نیاز به قابلیت اعتماد در مقیاس بی‌سابقه‌ای دارند. فصل ۶ بینش‌های کلیدی فصل‌های قبلی را ترکیب می‌کند و دیدگاهی آینده‌نگر در مورد مسیرهای آینده تحقیقات یادگیری ماشین قابل اعتماد ارائه می‌دهد. ما در مورد چالش‌های نوظهور بحث می‌کنیم، فرصت‌های تحقیقاتی امیدوارکننده را شناسایی می‌کنیم و راهنمایی‌های عملی برای پیاده‌سازی سیستم‌های یادگیری ماشینی قابل اعتماد در کاربردهای دنیای واقعی ارائه می‌دهیم. امیدواریم این کتاب پیش‌زمینه‌ای مقدماتی از مفهوم و پوشش یادگیری ماشینی قابل اعتماد ارائه دهد و برخی از پیشرفت‌های پیشرفته در تحقیقات یادگیری ماشینی قابل اعتماد را خلاصه کند. این می‌تواند خوانندگان را برای شروع مسیری سریع برای همگام شدن با معضلات و چالش‌های فعلی در این حوزه تحقیقاتی، انجام تحقیقات جدید بر روی روش‌های موجود و تطبیق اکتشافات مرتبط با سناریوهایی که به سیستم‌های یادگیری ماشینی قابل اعتماد نیاز دارند، آماده کند. در نهایت، مایلیم از اعضای مرکز هوش مصنوعی سیدنی، آزمایشگاه TML و گروه TMLR که در این کتاب مشارکت داشته‌اند، تشکر کنیم. آنها عبارتند از: یینگبین بای، ژو هوانگ، مویانگ لی، شیوچوان لی، رونکی لین، یوهائو وو، یو یائو، چائوجیان یو، سوکین یوان و داوی ژو از مرکز هوش مصنوعی سیدنی و آزمایشگاه TML؛ و چنتائو کائو، یونگ کیانگ چن، هائوانگ چی، رونگ دای، ژن فانگ، شیائو فنگ، ژو جیانگ، ژوان لی، چنشی لیو، فنگ لیو، شیانگیو لو، ژنهنگ تانگ، کیژو وانگ، بینگ‌هوی زی، ژیقین یانگ، جیانگ چائو یائو، ژونگ ژونگ، ژونگ ژونگ و …

Machine learning has become increasingly prevalent in decision-critical applications. However, real-world deployment scenarios often deviate from idealized assumptions where data are perfectly labeled, identically distributed, and free from malicious interference. Therefore, ensuring the trustworthiness of machine learning has emerged as one of the most pressing challenges in machine learning research. In practice, machine learning systems frequently encounter imperfect data in three main forms: noisy labels due to annotation errors, adversarial examples crafted to mislead predictions, and out-of-distribution samples that differ from training data. These challenges represent critical vulnerabilities that can lead to catastrophic failures, such as misdiagnosis in medical imaging, fraudulent transactions bypassing financial safety systems, and safety hazards in autonomous vehicles. This book provides a comprehensive exploration of trustworthy machine learning in imperfect data scenarios. Through six structured chapters, we present a unified framework encompassing the major categories of data imperfections and their mitigation strategies. Chapter 1 establishes the fundamental concepts of trustworthy machine learning and provides a comprehensive taxonomy of imperfect data scenarios. We introduce the core principles of robustness, safety, and reliability that define trustworthiness, while categorizing the three primary types of imperfect data: noisy labels, adversarial examples, and out-of-distribution samples. Chapter 2 focuses on trustworthy machine learning with noisy labels, exploring statistical learning approaches, deep learning methodologies, applications to overparameterized models, and the natural transition from noisy label learning to weakly supervised learning paradigms. We examine how different noise assumptions— symmetric, class-dependent, and instance-dependent noise—lead to distinct theoretical properties and practical solutions, providing both theoretical guarantees and empirical validation. Chapter 3 addresses adversarial examples from three complementary perspectives: statistical learning methods that model the transition relationships between adversarial and natural labels, deep learning approaches that enhance robustness through adversarial training, and diffusion-based methods that purify or detect adversarial perturbations in the preprocessing stage. This multifaceted approach provides comprehensive coverage of defense strategies throughout the entire machine learning pipeline. Chapter 4 examines out-of-distribution data challenges through two perspectives: detection and generalization. In out-of-distribution detection, we explore methods for identifying when test samples fall outside the training label space, enabling models to abstain from making unreliable predictions. In out-of-distribution generalization, we investigate techniques to improve generalization across different domains and distributions, focusing on invariant risk minimization and contrastivebased approaches. Chapter 5 extends our exploration to advanced application domains that represent the cutting edge of trustworthy machine learning research: federated learning, graph learning, and foundation models. These domains present unique challenges that amplify the importance of trustworthiness considerations. Federated learning introduces privacy and safety concerns in distributed settings, graph learning requires handling complex relational data structures with novel vulnerability patterns, and foundation models demand trustworthiness at unprecedented scale. Chapter 6 synthesizes the key insights from previous chapters and provides a forward-looking perspective on the future directions of trustworthy machine learning research. We discuss emerging challenges, identify promising research opportunities, and offer practical guidance for implementing trustworthy machine learning systems in real-world applications. We hope this book provides an introductory background to the concept and coverage of trustworthy machine learning and summarizes some of the cutting-edge progress in trustworthy machine learning research. This can prepare the readers to embark on a fast track to keep up with the current dilemmas and challenges in this research area, conducting new research upon existing methods, and adapting relevant heuristics to scenarios that require trustworthy machine learning systems. Finally, we would like to thank the members of the Sydney AI Centre, TML Lab, and TMLR Group who have contributed to this book. They are: Yingbin Bai, Zhuo Huang, Muyang Li, Xiuchuan Li, Runqi Lin, Yuhao Wu, Yu Yao, Chaojian Yu, Suqin Yuan, and Dawei Zhou from the Sydney AI Centre and TML Lab; and Chentao Cao, Yongqiang Chen, Haoang Chi, Rong Dai, Zhen Fang, Xiao Feng, Xue Jiang, Xuan Li, Chenxi Liu, Feng Liu, Xiangyu Lu, Zhenheng Tang, Qizhou Wang, Binghui Xie, Zhiqin Yang, Jiangchao Yao, Shuhai Zhang, Yonggang Zhang, Zhun Zhong, Zhanke Zhou, and Jianing Zhu from the TMLR Group (listed alphabetically within each group).

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Trustworthy Machine Learning under Imperfect Data

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بیشتر بخوانید

X
آموزش نقاشی سیاه قلم کلیک کنید