0

دانلود کتاب علوم داده و یادگیری ماشین- ابزارها و تکنیک‌های ضروری

بازدید 527
  • عنوان کتاب: Just Enough Data Science and Machine Learning -Essential Tools and Techniques
  • نویسنده: Mark Levene, Martyn Harris
  • حوزه: علوم داده
  • سال انتشار: 2025
  • تعداد صفحه: 330
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 14.4 مگابایت

علم داده ذاتاً یک فعالیت میان‌رشته‌ای است که از هم‌افزایی بین علوم کامپیوتر و آمار تکامل یافته است. برای انجام علم داده، به داده نیاز داریم! بنابراین ما یک مجموعه داده داریم؛ این مجموعه می‌تواند یک پایگاه داده ساختاریافته از سوابق کارمندان با تمام جزئیات آنها، مجموعه‌ای بدون ساختار از اسناد متنی (مثلاً ایمیل‌ها)، مجموعه بزرگی از تصاویر حیوانات، یک سری زمانی از داده‌های مالی از بازار سهام، داده‌های اپیدمیولوژیک که تعداد افراد آلوده در روز را برای یک منطقه معین در یک دوره زمانی مشخص نشان می‌دهد، یا داده‌های جغرافیایی مربوط به مشاغل در مرکز لندن باشد. داشتن داده کافی نیست؛ ما باید مشکلی داشته باشیم که می‌خواهیم حل کنیم یا سوالاتی که می‌خواهیم با استفاده از داده‌ها به آنها پاسخ دهیم. به عنوان مثال، در یک مجموعه داده کارمند، ممکن است بخواهیم ویژگی‌های کارمند را که محدوده حقوق آنها را تعیین می‌کند بدانیم یا در یک مجموعه داده اپیدمیولوژیک، ممکن است بخواهیم سرعت انتشار ویروس در جمعیت را تعیین کنیم. اکنون، به معنای وسیع، هنگامی که داده‌ها در دسترس هستند و ما یک مسئله به خوبی تعریف شده برای کار داریم، چندین مرحله وظایفی را که یک دانشمند داده باید برای مقابله با مشکل موجود و فهمیدن آنچه داده‌ها به ما می‌گویند، انجام دهد، تعیین می‌کند. همیشه معقول است که با یک مرحله تحلیل اکتشافی داده‌ها شروع کنیم که با کمک ابزارهای مصورسازی انجام می‌شود. کاوش داده‌ها به ما کمک می‌کند تا فرضیه‌هایی در مورد داده‌ها شکل دهیم که به نوبه خود به ما امکان می‌دهد یک مدل آماری از داده‌ها بسازیم. ناگزیر، ما از یک روش الگوریتمی، بر اساس مدل خود، استفاده خواهیم کرد که خروجی آن به ما در تأیید یا رد فرضیه‌هایی که شکل داده‌ایم کمک می‌کند. به طور خلاصه، این همان چیزی است که علم داده در مورد آن است. روش الگوریتمی اساساً امکان کشف الگوهای موجود در داده‌ها را فراهم می‌کند، که ممکن است بسته به مدل آماری که شکل داده‌ایم، بزرگ و/یا پیچیده باشند. این اغلب به عنوان یادگیری ماشین شناخته می‌شود. با این حال، فرآیند کلی کشف الگو یا دانش به عنوان داده‌کاوی شناخته می‌شود. در توضیح علم داده، ترجیح می‌دهیم از اصطلاح یادگیری ماشین به عنوان زیرشاخه‌ای از علوم کامپیوتر که مسئول بخش الگوریتمی علم داده است، استفاده کنیم. بنابراین، به معنای بسیار گسترده، علم داده شامل روش‌ها و الگوریتم‌هایی است که برای تجزیه و تحلیل داده‌ها و ارائه یافته‌های حاصل از تجزیه و تحلیل بعدی استفاده می‌شوند. اگر بخواهیم یک قدم فراتر برویم، ذینفعان این رشته و فعالیت به نام علم داده چه کسانی هستند؟ دانشمندان کامپیوتر، مانند نویسندگان، مسئول طراحی و پیاده‌سازی الگوریتم‌ها به گونه‌ای هستند که برای مجموعه داده‌های بسیار بزرگ و بالقوه پیچیده قابل استفاده باشند. سپس آمارشناسان مسئول ساخت مدل هستند که بخش اساسی علم داده است. با این حال، می‌توان استدلال کرد که دانشمند داده مهارت‌های این دو رشته علوم کامپیوتر و آمار را با هم ترکیب می‌کند و بسته به پیشینه خود به یک طرف یا طرف دیگر متمایل می‌شود. با این حال، ما گروه سومی از ذینفعان داریم که داده‌ها و مشکلات را مطرح می‌کنند: آنها ممکن است دانشمندان علوم اجتماعی، اقتصاددانان، اپیدمیولوژیست‌ها یا هر متخصص دیگری از هر رشته دیگری باشند که مایل به استفاده از علم داده برای کمک به آنها در پاسخ به سؤالاتی باشند که در مورد داده‌های موجود دارند. برای اینکه علم داده موفقی رخ دهد، اغلب اوقات، یک تیم بین رشته‌ای باید روی مشکل مورد نظر کار کند. همچنین گروهی از دانشمندان داده وجود دارند که از ابتدا تخصص خود را در این زمینه به جای حوزه علوم کامپیوتر یا آمار ایجاد می‌کنند. علاوه بر این، دیگران، مانند نویسندگان، کار خود را در علوم کامپیوتر یا آمار شروع کرده‌اند و تخصص خود را به حوزه میانی علم داده منتقل کرده‌اند. در نهایت، این سوال که رابطه بین علم داده، آمار و علم کامپیوتر/یادگیری ماشین دقیقاً چیست، همچنان یک بحث مداوم خواهد بود. از دیدگاه ما، درک این نکته مهم است که علم داده نیازمند به‌کارگیری تخصص هر دو رشته برای حل مسائل دنیای واقعی ناشی از داده‌ها است. علاوه بر این، هدف ما در این کتاب ارائه یک مقدمه فنی نسبتاً کوتاه برای این حوزه هیجان‌انگیز است که توسط متخصصان و محققان با پیشینه‌های متنوع قابل درک باشد. در فصل 2، مفاهیم آماری اساسی مورد نیاز برای تبدیل شدن به یک دانشمند داده را معرفی می‌کنیم. در فصل 3، انواع داده‌های اساسی را که دانشمندان داده هنگام انجام کار روزانه خود باید درک کنند، معرفی می‌کنیم. فصل 4 یک دوره فشرده یادگیری ماشین برای دانشمندان داده نوپا است. در فصل 5، چندین موضوع مورد انتخاب نویسندگان در علم داده را بررسی می‌کنیم که دانش دانشمندان داده را افزایش می‌دهد و به آنها بینشی در مورد کاربردهای معمولی که ممکن است در طول کار خود با آنها مواجه شوند، می‌دهد. در نهایت، در فصل 6، مطالبی را که در این مقدمه پوشش داده‌ایم، خلاصه می‌کنیم.

Data science is inherently an interdisciplinary activity that has evolved from a synergy between computer science and statistics. To do data science, we need data! So we have a data set; it could be a structured database of employee records with all their details, an unstructured collection of textual documents (say emails), a large collection of images of animals, a time series of financial data from the stock market, epidemiological data giving the number of infected individuals per day for a given region over a period of time, or geographical data pertaining to businesses in central London. Having data is not enough; we need to have a problem we would like to solve or some questions we wish to answer using the data. For example, in an employee data set, we may wish to know the employee characteristics that determine their salary band or, in an epidemiological data set, we may wish to determine how fast a virus is spreading in the population. Now, in a broad sense, once the data is available and we have a well-defined problem to work on, several steps determine the tasks a data scientist should perform to tackle the problem at hand and find out what the data is telling us. It is always sensible to start with an exploratory data analysis phase, which is carried out with the aid of visualisation tools. Exploring data will help us form some hypotheses about the data, which in turn allows us to build a statistical model of the data. Inevitably, we will use an algorithmic method, based on our model, whose output will assist us in verifying or refuting the hypotheses we have formed. In a nutshell, this is what data science is about. The algorithmic method essentially enables the discovery of patterns in the data, which may be large in size and/or complex, according to the statistical model we have formed. This is often referred to as machine learning; however, the general process of pattern or knowledge discovery is known as data mining. In our exposition of data science, we prefer to use the term machine learning as the subfield of computer science responsible for the algorithmic part of data science. Therefore, in a very broad sense, data science comprises the methods and algorithms used to analyse the data and present the findings from the ensuing analysis. Taking this a step further, who are the stakeholders in this discipline and activity called data science? Computer scientists, such as the authors, are responsible for designing and implementing the algorithms in such a way that they scale to very large and potentially complex data sets. Then statisticians are responsible for model building, which is an essential part of data science. However, one could argue that the data scientist combines skills from these two disciplines of computer science and statistics, leaning toward one side or another depending on their background. Still, we have a third group of stakeholders who bring the data and the problems to the table: they may be social scientists, economists, epidemiologists, or any other professionals from any other discipline that would like to use data science to aid them in answering questions they have about the data they possess. For successful data science to take place, more often than not, an interdisciplinary team needs to be working on the problem at hand. There is also a breed of data scientists who, from the start, build their expertise in this field rather than in the field of computer science or statistics. Moreover, others, such as the authors, started off in computer science or statistics and have moved their expertise to the middle ground of data science. Ultimately, the question of what exactly is the relationship between data science, statistics, and computer science/machine learning will remain an ongoing debate. It is important from our perspective to appreciate that data science demands the application of expertise from both these disciplines to solve real-world problems emanating from data. Furthermore, our goal in this book is to provide a relatively brief technical introduction to this exciting field that can be understood by practitioners and researchers alike, coming from diverse backgrounds. In Chapter 2 we introduce the basic statistical notions needed to become a data scientist. In Chapter 3 we introduce the fundamental data types that data scientists need to understand when going about their daily job. Chapter 4 is a machine learning crash course for budding data scientists. In Chapter 5 we examine several topics of the authors’ choice in data science that will enhance data scientists’ knowledge and give them insight into typical applications they may come across during their work. Finally, in Chapter 6 we summarise the material we have covered in this introduction.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Just Enough Data Science and Machine Learning

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بیشتر بخوانید

X
آموزش نقاشی سیاه قلم کلیک کنید