- عنوان کتاب: A Friendly Guide to Data Science
- نویسنده: Kelly P.Vincent
- حوزه: علوم داده
- سال انتشار: 2025
- تعداد صفحه: 901
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 8.05 مگابایت
علم داده به عنوان جذابترین شغل قرن بیست و یکم مورد تحسین قرار گرفته است، زیرا پتانسیل زیادی برای کمک به سازمانها در درک بهتر خود و عملکردشان از طریق بینشهای حاصل از دادهها دارد و آنها را قادر میسازد هر کاری را که انجام میدهند، فقط بهتر انجام دهند. هیجانزده شدن در مورد این امکانات آسان است، همانطور که بسیاری از رهبران سازمانها انجام دادهاند. با این حال، صرف نظر از این واقعیت که احتمالاً کمی زود است که در مورد یک قرن کامل که حتی یک ربع هم از آن نگذشته است، اظهار نظر کنیم، دو کلمه کوچک “علم داده” واقعاً میزان برنامهریزی و کاری را که برای دستیابی به این بینشهای مفید صرف میشود، بیان نمیکند. به ویژه در میان رهبران غیر فنی (اکثریت در دنیای شرکتها)، شنیدن اصطلاحات “علم داده”، “یادگیری ماشین” و “هوش مصنوعی” رایج است و فکر میکنند که آنها تمام مشکلات خود را حل خواهند کرد. اغلب، این افراد یک تیم علم داده تشکیل میدهند – یا گاهی اوقات فقط یک دانشمند داده استخدام میکنند – و انتظار دارند که بینشها شروع به بیرون ریختن کنند. اغلب اوقات، دانشمندان داده بیچارهای که استخدام کردهاند، متوجه میشوند که دادههای کافی برای انجام علم داده، به ویژه علم داده خوب، وجود ندارد. حتی ماهرترین دانشمند داده هم نمیتواند آب را به شراب تبدیل کند – ضربالمثل «ورودی بیارزش/خروجی بیارزش» در دنیای دادهها ۱۰۰٪ صادق است. این مایه تاسف است و اغلب به این معنی است که کار به سادگی نمیتواند انجام شود. اما یک اتفاق خطرناکتر که میتواند در مواجهه با ورودی بیارزش/خروجی بیارزش رخ دهد این است که دانشمندان داده بیتجربه نتایج بیارزشی تولید میکنند – چیزهایی که به نظر بصیرتبخش میآیند اما به سادگی اشتباه هستند. آنها ممکن است این بینشهای کاذب را منتقل کنند و رهبران ممکن است از آنها برای تصمیمگیریهای تجاری کاملاً اشتباه استفاده کنند. آگاهی از الزامات و محدودیتهای علم داده برای جلوگیری از این سناریوی کابوسوار و دستیابی به بینشهای معنادار بسیار مهم است. درک الزامات و محدودیتهای علم داده همچنین به عنوان یادآوری سهگانه زمان-کیفیت-هزینه در تمام کارهای فنی عمل میکند. شما نمیتوانید بینشهای دادهای با کیفیت بالا را به سرعت و با هزینه کم به دست آورید. حداقل یکی از این سه مورد وقتی دو مورد دیگر در اولویت قرار میگیرند، آسیب خواهد دید. همیشه قطعات متحرک زیادی در یک پروژه علم داده وجود دارد. این کتاب با نشان دادن وسعت باورنکردنی مباحثی که علم داده در بر میگیرد، قصد دارد به شما در درک دلیل این امر کمک کند. این موارد شامل آمار، تحلیل دادهها، برنامهنویسی، اخلاق، امنیت دادهها، حریم خصوصی دادهها، مهندسی دادهها، یادگیری ماشین (ML)، پردازش زبان طبیعی (NLP)، مصورسازی دادهها، کلانداده، محاسبات ابری و مدیریت پروژه میشود. اکثر پروژهها فقط شامل برخی از این حوزهها میشوند، اما تشخیص دقیق اینکه کدام یک از آنها مرتبط خواهند بود، میتواند از قبل دشوار باشد. بنابراین داشتن درک واقعی از هر آنچه که باید هنگام انجام علم داده در نظر گرفته شود، به تعدیل انتظارات شما به سطوح واقعبینانهتر کمک میکند. بخش آخر کتاب بر جنبههای عملی آنچه برای تبدیل شدن به یک دانشمند داده لازم است، تمرکز دارد. از این رو، متخصص بودن در تمام حوزههای فوق برای یک دانشمند داده خوب بودن ضروری نیست. هنوز هم مهم است که بدانید علم داده به چه حوزههایی میپردازد و در چه حوزههایی فعالیت میکند، زیرا گاهی اوقات ممکن است به یک متخصص در یکی از آن حوزههای دیگر نیاز باشد. یا شاید لازم باشد خودتان آن مهارتها را توسعه دهید. علم داده یک حوزه دائماً در حال تغییر است و کار در آن به این معنی است که هرگز از یادگیری دست نمیکشید.
Data science has been celebrated as the sexiest job of the twenty-first century because it has so much potential to help organizations understand themselves and their functions better through insights from data, enabling them to do whatever it is they do, just better. It’s easy to get excited about these possibilities, as many organization leaders have been doing. However, setting aside the fact that it’s probably a little early to be making pronouncements about an entire century that’s not even a quarter over, the two little words “data science” don’t really convey the amount of planning and work that goes into getting those helpful insights. It’s common, especially among nontechnical leaders (the majority in the corporate world), to hear the buzz terms “data science,” “machine learning,” and “AI” and think they will solve all of their problems. Often, these people will spin up a data science team—or sometimes just hire one data scientist—and expect the insights to start pouring out. More often than not, the hapless data scientists they’ve hired will discover that there’s insufficient data to do data science, especially good data science. Even the most skilled data scientist can’t turn water into wine—the mantra “garbage in/garbage out” is 100% true in the data world. This is unfortunate and often means that the work simply can’t get done. But one even more dangerous thing that can happen in the face of garbage in/garbage out is that inexperienced data scientists will produce garbage results—things that look insightful but are simply wrong. They may pass these faux insights along, and leaders may use them to make completely wrong-headed business decisions. An awareness of the requirements and limitations of data science is crucial to avoid this nightmare scenario and get meaningful insights. Understanding data science requirements and limitations also serves as a reminder of the time–quality–cost triad in all technical work. You can’t get high-quality data insights fast for cheap. At least one of the three will suffer when the other two are prioritized. There are always a lot of moving parts in a data science project. This book is intended to help you understand why that is, by showing the incredible breadth of topics data science involves. These include statistics, data analysis, programming, ethics, data security, data privacy, data engineering, machine learning (ML), natural language processing (NLP), data visualization, big data, cloud computing, and project management. Most projects only involve some of these areas, but it can be difficult to know far in advance exactly which ones will be relevant. So having a real appreciation for everything that should be considered when doing data science will help temper your expectations to more realistic levels. The last part of the book focuses on practical aspects of what it takes to become a data scientist. It follows that being an expert in all the above areas is unnecessary to be a good data scientist. It is still important to know what areas data science touches and the areas it operates in, because sometimes an expert in one of those other areas may be needed. Or perhaps you need to develop those skills yourself. Data science is a constantly changing field, and working in it means you never stop learning.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: A Friendly Guide to Data Science
نظرات کاربران