- عنوان کتاب: A Mathematical Introduction to Data Science
- نویسنده: Yi Sun, Rod Adams
- حوزه: علوم داده
- سال انتشار: 2025
- تعداد صفحه: 486
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 5.0 مگابایت
این کتاب در درجه اول به عنوان متنی برای یک دوره یک ترمی علوم داده و تجزیه و تحلیل: مبانی علوم داده نوشته شده است. امیدواریم این کتاب این حوزه را به افرادی که دانشجو نیستند اما دانش ریاضی و تمایل به یادگیری بیشتر دارند نیز معرفی کند. فرض بر این است که خواننده در کار با اعداد در قالبهای مختلف، از جمله کسرها، اعشار، درصدها و اعداد صحیح، مهارت دارد. آنها همچنین باید دانش جبر مقدماتی، مانند دستکاری عبارات جبری ساده، حل معادلات ساده و رسم نمودار توابع ابتدایی، همراه با درک اولیه از هندسه شامل زاویهها، مثلثات و قضیه فیثاغورس را داشته باشند. این کتاب خواننده را با تخصص اساسی ریاضی و آماری مورد نیاز برای درک اصول بسیاری از الگوریتمهای مورد استفاده در علوم داده آشنا میکند. مانند تمام کتابهای درسی ریاضی، مثالهای حل شده بسیار مهم هستند و تمرینها برای شما، خواننده، حتی مهمتر هستند. شما نمیتوانید ریاضیات را بدون دیدن و انجام مثالها توسط خودتان، واقعاً درک کنید. با انجام مثالها، باید به عقب برگردید تا معادلات، متنها یا مثالهای حل شده مرتبط را پیدا کنید که به شما امکان میدهد مثال را تکمیل کنید. این روشی است که شما ریاضیات را یاد میگیرید. نکتهای در مورد پاسخهای عددی در این کتاب. ممکن است دقیقاً همان پاسخی را که ما دریافت کردهایم، دریافت نکنید. ما اغلب از پایتون برای انجام محاسبات خود استفاده کردهایم و احتمالاً با ارقام اعشاری بیشتری نسبت به آنچه شما استفاده میکنید، کار خواهد کرد، بنابراین اگر پاسخهای شما کمی متفاوت است، نگران نباشید. به عنوان یک قاعده کلی برای رسیدن به نتیجهای درست تا دو رقم اعشار، باید حداقل با سه رقم اعشار کار کنید. راهحلهای مختصر برای همه تمرینها در انتهای کتاب ارائه شده است. راهحلهای کاملتر را میتوانید با دنبال کردن این لینک پیدا کنید: sn.pub/5m5zwx. فصل 1 رویههای کلی علم داده را ارائه میدهد، سه مطالعه موردی مورد استفاده در سراسر کتاب را خلاصه میکند و انواع دادهها را معرفی میکند. فصل 2 دانش نظریه مجموعهها و توابع پایه را برای ایجاد پایه و اساس فصلهای بعدی ارائه میدهد. فصل 3 دانش جبر خطی (بردارها و ماتریسها) مورد استفاده در فصلهای بعدی را پوشش میدهد. فصل 4 بر دو الگوریتم پرکاربرد در علم داده، تحلیل مؤلفه اصلی (PCA) و تجزیه مقدار تکین تمرکز دارد و نحوه عملکرد این دو الگوریتم را نشان میدهد. فصلهای ۵ و ۶ دانش پایه حساب دیفرانسیل و انتگرال (تمایز و انتگرالگیری) و ایدههای اصلی بهینهسازی برای یافتن حداقل مقدار یک تابع هدف را معرفی میکنند. فصلهای ۷، ۸ و ۹ اصول پشت سه روش را آشکار میکنند: تحلیل مؤلفههای اصلی، رگرسیون خطی ساده و آموزش شبکههای عصبی مصنوعی ساده با استفاده از دانش ایجاد شده در فصلهای بعدی. فصلهای ۱۰، ۱۱ و ۱۲ دانش پایه احتمال و آمار را معرفی میکنند. این مباحث با در نظر گرفتن توزیعهای احتمال مرتبط با دادهها و اطمینان ما به تحلیل خود، زیربنای بسیاری از رشتههای علمی هستند که با حجم وسیعی از دادهها سروکار دارند. به طور خاص، این فصل پایههایی را برای گسترش مطالب مربوط به الگوریتم رگرسیون خطی فصل ۸ ایجاد میکند. فصل ۱۳ مدل رگرسیون خطی فصل ۸ را تحت یک چارچوب احتمال و آماری بررسی میکند. به طور خاص، این فصل روش تخمین حداکثر درستنمایی را ارائه میدهد. فصل ۱۴ برخی از مسائل مهم پیرامون تحلیل دادهها را مورد بحث قرار میدهد که انگیزه معرفی دو الگوریتم نهایی است که میتوانند تعمیم مدل را بهبود بخشند، یعنی رگرسیون ریج و توقف زودهنگام.
This book is written primarily as a text for a one-semester Data Science and Analytics course: Foundations of Data Science. We hope the book will also introduce this area to people who are not students but have some mathematical knowledge and a willingness to learn more. The reader is assumed proficient in handling numbers in various formats, including fractions, decimals, percentages, and surds. They should also have a knowledge of introductory algebra, such as manipulating simple algebraic expressions, solving simple equations, and graphing elementary functions, along with a basic understanding of geometry including angles, trigonometry, and Pythagoras’ theorem. This book introduces the reader to the fundamental mathematical and statistical expertise required to understand the principles of many algorithms used in Data Science. As with all mathematical textbooks, the worked examples are very important, and the exercises for you, the reader, are even more important. You cannot really understand mathematics without seeing and doing examples yourself. By doing examples, you have to keep looking back to find relevant equations, pieces of text, or worked examples that will allow you to complete the example. This is the way you learn mathematics. A note on numerical answers in this book. You may not get exactly the same answer as we have. We have often used Python to do our calculations and it will probably be working with more decimal places than you might be using, so do not worry if your answers are slightly different. As a rule of thumb to get a result correct to two decimal places you need to work with at least three decimal places. Brief solutions to all exercises are given at the end of the book. Fuller solutions can be found by following this link: sn.pub/5m5zwx. Chapter 1 presents the general procedures of Data Science, summarises three case studies used throughout the book, and introduces data types. Chapter 2 provides the knowledge of basic set theory and functions to set up the foundation for later chapters. Chapter 3 covers the linear algebra knowledge (vectors and matrices) used in the subsequent chapters. Chapter 4 focuses on two widely used algorithms in Data Science, Principal Component Analysis (PCA) and Singular Value Decomposition, and shows how these two algorithms work. Chapters 5 and 6 introduce the basic knowledge of calculus (differentiation and integration) and the main optimisation ideas for finding the minimum value of an objective function. Chapters 7, 8, and 9 reveal principles behind three methods: Principal Component Analysis, Simple Linear Regression, and training simple artificial Neural Networks using knowledge built up in the proceeding chapters. Chapters 10, 11, and 12 introduce basic knowledge of probability and statistics. These topics underpin lots of scientific disciplines that deal with vast amounts of data, by considering the probability distributions associated with the data and our confidence in our analysis. In particular, it builds the foundations to extend the material on the linear regression algorithm of Chap. 8. Chapter 13 revisits the linear regression model of Chap. 8 under a probability and statistical framework. Specifically, the chapter presents the method of Maximum Likelihood Estimation. Chapter 14 discusses some important issues surrounding data analysis which motivates the introduction of two final algorithms that can improve model generalisation, namely Ridge Regression and early stopping.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
نظرات کاربران