- عنوان کتاب: Just Enough Data Science and Machine Learning -Essential Tools and Techniques
- نویسنده: Mark Levene, Martyn Harris
- حوزه: علوم داده
- سال انتشار: 2025
- تعداد صفحه: 330
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 14.4 مگابایت
علم داده ذاتاً یک فعالیت میانرشتهای است که از همافزایی بین علوم کامپیوتر و آمار تکامل یافته است. برای انجام علم داده، به داده نیاز داریم! بنابراین ما یک مجموعه داده داریم؛ این مجموعه میتواند یک پایگاه داده ساختاریافته از سوابق کارمندان با تمام جزئیات آنها، مجموعهای بدون ساختار از اسناد متنی (مثلاً ایمیلها)، مجموعه بزرگی از تصاویر حیوانات، یک سری زمانی از دادههای مالی از بازار سهام، دادههای اپیدمیولوژیک که تعداد افراد آلوده در روز را برای یک منطقه معین در یک دوره زمانی مشخص نشان میدهد، یا دادههای جغرافیایی مربوط به مشاغل در مرکز لندن باشد. داشتن داده کافی نیست؛ ما باید مشکلی داشته باشیم که میخواهیم حل کنیم یا سوالاتی که میخواهیم با استفاده از دادهها به آنها پاسخ دهیم. به عنوان مثال، در یک مجموعه داده کارمند، ممکن است بخواهیم ویژگیهای کارمند را که محدوده حقوق آنها را تعیین میکند بدانیم یا در یک مجموعه داده اپیدمیولوژیک، ممکن است بخواهیم سرعت انتشار ویروس در جمعیت را تعیین کنیم. اکنون، به معنای وسیع، هنگامی که دادهها در دسترس هستند و ما یک مسئله به خوبی تعریف شده برای کار داریم، چندین مرحله وظایفی را که یک دانشمند داده باید برای مقابله با مشکل موجود و فهمیدن آنچه دادهها به ما میگویند، انجام دهد، تعیین میکند. همیشه معقول است که با یک مرحله تحلیل اکتشافی دادهها شروع کنیم که با کمک ابزارهای مصورسازی انجام میشود. کاوش دادهها به ما کمک میکند تا فرضیههایی در مورد دادهها شکل دهیم که به نوبه خود به ما امکان میدهد یک مدل آماری از دادهها بسازیم. ناگزیر، ما از یک روش الگوریتمی، بر اساس مدل خود، استفاده خواهیم کرد که خروجی آن به ما در تأیید یا رد فرضیههایی که شکل دادهایم کمک میکند. به طور خلاصه، این همان چیزی است که علم داده در مورد آن است. روش الگوریتمی اساساً امکان کشف الگوهای موجود در دادهها را فراهم میکند، که ممکن است بسته به مدل آماری که شکل دادهایم، بزرگ و/یا پیچیده باشند. این اغلب به عنوان یادگیری ماشین شناخته میشود. با این حال، فرآیند کلی کشف الگو یا دانش به عنوان دادهکاوی شناخته میشود. در توضیح علم داده، ترجیح میدهیم از اصطلاح یادگیری ماشین به عنوان زیرشاخهای از علوم کامپیوتر که مسئول بخش الگوریتمی علم داده است، استفاده کنیم. بنابراین، به معنای بسیار گسترده، علم داده شامل روشها و الگوریتمهایی است که برای تجزیه و تحلیل دادهها و ارائه یافتههای حاصل از تجزیه و تحلیل بعدی استفاده میشوند. اگر بخواهیم یک قدم فراتر برویم، ذینفعان این رشته و فعالیت به نام علم داده چه کسانی هستند؟ دانشمندان کامپیوتر، مانند نویسندگان، مسئول طراحی و پیادهسازی الگوریتمها به گونهای هستند که برای مجموعه دادههای بسیار بزرگ و بالقوه پیچیده قابل استفاده باشند. سپس آمارشناسان مسئول ساخت مدل هستند که بخش اساسی علم داده است. با این حال، میتوان استدلال کرد که دانشمند داده مهارتهای این دو رشته علوم کامپیوتر و آمار را با هم ترکیب میکند و بسته به پیشینه خود به یک طرف یا طرف دیگر متمایل میشود. با این حال، ما گروه سومی از ذینفعان داریم که دادهها و مشکلات را مطرح میکنند: آنها ممکن است دانشمندان علوم اجتماعی، اقتصاددانان، اپیدمیولوژیستها یا هر متخصص دیگری از هر رشته دیگری باشند که مایل به استفاده از علم داده برای کمک به آنها در پاسخ به سؤالاتی باشند که در مورد دادههای موجود دارند. برای اینکه علم داده موفقی رخ دهد، اغلب اوقات، یک تیم بین رشتهای باید روی مشکل مورد نظر کار کند. همچنین گروهی از دانشمندان داده وجود دارند که از ابتدا تخصص خود را در این زمینه به جای حوزه علوم کامپیوتر یا آمار ایجاد میکنند. علاوه بر این، دیگران، مانند نویسندگان، کار خود را در علوم کامپیوتر یا آمار شروع کردهاند و تخصص خود را به حوزه میانی علم داده منتقل کردهاند. در نهایت، این سوال که رابطه بین علم داده، آمار و علم کامپیوتر/یادگیری ماشین دقیقاً چیست، همچنان یک بحث مداوم خواهد بود. از دیدگاه ما، درک این نکته مهم است که علم داده نیازمند بهکارگیری تخصص هر دو رشته برای حل مسائل دنیای واقعی ناشی از دادهها است. علاوه بر این، هدف ما در این کتاب ارائه یک مقدمه فنی نسبتاً کوتاه برای این حوزه هیجانانگیز است که توسط متخصصان و محققان با پیشینههای متنوع قابل درک باشد. در فصل 2، مفاهیم آماری اساسی مورد نیاز برای تبدیل شدن به یک دانشمند داده را معرفی میکنیم. در فصل 3، انواع دادههای اساسی را که دانشمندان داده هنگام انجام کار روزانه خود باید درک کنند، معرفی میکنیم. فصل 4 یک دوره فشرده یادگیری ماشین برای دانشمندان داده نوپا است. در فصل 5، چندین موضوع مورد انتخاب نویسندگان در علم داده را بررسی میکنیم که دانش دانشمندان داده را افزایش میدهد و به آنها بینشی در مورد کاربردهای معمولی که ممکن است در طول کار خود با آنها مواجه شوند، میدهد. در نهایت، در فصل 6، مطالبی را که در این مقدمه پوشش دادهایم، خلاصه میکنیم.
Data science is inherently an interdisciplinary activity that has evolved from a synergy between computer science and statistics. To do data science, we need data! So we have a data set; it could be a structured database of employee records with all their details, an unstructured collection of textual documents (say emails), a large collection of images of animals, a time series of financial data from the stock market, epidemiological data giving the number of infected individuals per day for a given region over a period of time, or geographical data pertaining to businesses in central London. Having data is not enough; we need to have a problem we would like to solve or some questions we wish to answer using the data. For example, in an employee data set, we may wish to know the employee characteristics that determine their salary band or, in an epidemiological data set, we may wish to determine how fast a virus is spreading in the population. Now, in a broad sense, once the data is available and we have a well-defined problem to work on, several steps determine the tasks a data scientist should perform to tackle the problem at hand and find out what the data is telling us. It is always sensible to start with an exploratory data analysis phase, which is carried out with the aid of visualisation tools. Exploring data will help us form some hypotheses about the data, which in turn allows us to build a statistical model of the data. Inevitably, we will use an algorithmic method, based on our model, whose output will assist us in verifying or refuting the hypotheses we have formed. In a nutshell, this is what data science is about. The algorithmic method essentially enables the discovery of patterns in the data, which may be large in size and/or complex, according to the statistical model we have formed. This is often referred to as machine learning; however, the general process of pattern or knowledge discovery is known as data mining. In our exposition of data science, we prefer to use the term machine learning as the subfield of computer science responsible for the algorithmic part of data science. Therefore, in a very broad sense, data science comprises the methods and algorithms used to analyse the data and present the findings from the ensuing analysis. Taking this a step further, who are the stakeholders in this discipline and activity called data science? Computer scientists, such as the authors, are responsible for designing and implementing the algorithms in such a way that they scale to very large and potentially complex data sets. Then statisticians are responsible for model building, which is an essential part of data science. However, one could argue that the data scientist combines skills from these two disciplines of computer science and statistics, leaning toward one side or another depending on their background. Still, we have a third group of stakeholders who bring the data and the problems to the table: they may be social scientists, economists, epidemiologists, or any other professionals from any other discipline that would like to use data science to aid them in answering questions they have about the data they possess. For successful data science to take place, more often than not, an interdisciplinary team needs to be working on the problem at hand. There is also a breed of data scientists who, from the start, build their expertise in this field rather than in the field of computer science or statistics. Moreover, others, such as the authors, started off in computer science or statistics and have moved their expertise to the middle ground of data science. Ultimately, the question of what exactly is the relationship between data science, statistics, and computer science/machine learning will remain an ongoing debate. It is important from our perspective to appreciate that data science demands the application of expertise from both these disciplines to solve real-world problems emanating from data. Furthermore, our goal in this book is to provide a relatively brief technical introduction to this exciting field that can be understood by practitioners and researchers alike, coming from diverse backgrounds. In Chapter 2 we introduce the basic statistical notions needed to become a data scientist. In Chapter 3 we introduce the fundamental data types that data scientists need to understand when going about their daily job. Chapter 4 is a machine learning crash course for budding data scientists. In Chapter 5 we examine several topics of the authors’ choice in data science that will enhance data scientists’ knowledge and give them insight into typical applications they may come across during their work. Finally, in Chapter 6 we summarise the material we have covered in this introduction.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

نظرات کاربران