- عنوان کتاب: Applied Data Science Using PySpark
- نویسنده: Marina Evrim Johnson
- حوزه: تحلیل داده, PySpark
- سال انتشار: 2022
- تعداد صفحه: 427
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 10.7 مگابایت
قابلیت های Pyspark و کاربرد آن در حوزه علم داده را کشف کنید. این راهنمای جامع با نمونههای دستچینشده از موارد استفاده روزانه، چرخه ساخت مدلهای پیشبینیکننده را با جدیدترین تکنیکها و ترفندهای تجارت از پایان به پایان میرساند. در 3 فصل اول، شما را با راه اندازی محیط، مبانی PySpark با تمرکز بر دستکاری داده ها شروع می کنیم. ما می دانیم که مهندسی ویژگی جایی است که متخصصان علم داده 70٪ از زمان خود را صرف می کنند. از آنجایی که شما را با زبان راحت می کنیم، بر آن بنا می کنیم تا شما را با توابع ریاضی موجود در قفسه آشنا کنیم. قبل از اینکه به فصل بعدی برویم شما را با چارچوب مدل سازی پیش بینی آشنا می کنیم. در فصل 4، به هنر انتخاب متغیر می پردازیم که در آن تکنیک های مختلف انتخاب موجود در PySpark را نشان می دهیم. در فصل های 5، 6 و 7، ما شما را به سفر الگوریتم های یادگیری ماشین، پیاده سازی ها و تکنیک های تنظیم دقیق می بریم. علاوه بر این، ما همچنین در مورد معیارهای اعتبار سنجی مختلف و نحوه استفاده از آنها برای انتخاب بهترین مدل ها صحبت خواهیم کرد. فصل 8 و 9 شما را از طریق خطوط لوله یادگیری ماشین، روشهای مختلف موجود برای عملیاتی کردن مدل و ارائه آن از طریق docker/API راهنمایی میکند. فصل 10 شامل ترفندهایی است که می تواند به شما در بهینه سازی برنامه ها و خطوط لوله یادگیری ماشین کمک کند. انعطافپذیری، مزایا و استفاده از PySpark در برنامههای علم داده را خواهید آموخت. این کتاب به علاقه مندان به علم داده توصیه می شود که می خواهند با کار همزمان با مجموعه داده های بزرگ، قدرت محاسبات موازی را آزاد کنند. برای حرفهایهایی که میخواهند از زبانهای سنتی به منبع باز در تنظیمات کلان داده جابجا شوند، بسیار توصیه میشود. این یک ارزش افزوده برای دانش آموزانی است که می خواهند روی داده های بزرگ کار کنند.
آنچه خواهید آموخت:
• نمای کلی از ساخت مدل پیشگوی پایان به انتها • تکنیک ها و پیاده سازی های انتخاب متغیرهای متعدد • الگوریتم ها و پیاده سازی های متعدد • مدل های عملیاتی • آزمایش ها و نکات علم داده
Discover the capabilities of Pyspark and its application in the realm of data science. This comprehensive guide with hand-picked examples of daily use cases will walk you through the end to end predictive model building cycle with the latest techniques and tricks of the trade. In first 3 chapters, we will get you started with the setting up of the environment, basics of PySpark focusing on data manipulations. We understand feature engineering is where data science professionals spend 70% of their time. As we make you comfortable with the language, we build upon that to introduce you to the mathematical functions available off the shelf. Before we move to the next chapter we will introduce you to the predictive modeling framework. In Chapter 4, we will dive into the art of Variable Selection where we demonstrate various selection techniques available in PySpark. In Chapter 5, 6 & 7, we take you on the journey of machine learning algorithms, implementations and fine-tuning techniques. In addition, we will also talk about different validation metrics and how to use them for picking the best models. Chapter 8 and 9 will walk you through machine learning pipelines, various methods available to operationalize the model and serve it through docker/API. Chapter 10 includes some tricks that can help you optimize your programs and machine learning pipelines. You will learn the flexibility, advantages and become comfortable using PySpark in data science applications. This book is recommended to data science enthusiasts who want to unleash the power of parallel computing by simultaneously working with big datasets. Highly recommended for professionals who want to switch from traditional languages to open source in big data setting. It’s a value add for students who want to work on big data.
What you will learn:
- Overview of end to end predictive model building • Multiple variable selection techniques & implementations • Multiple algorithms & implementations • Operationalizing models • Data science experimentations & tips
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Applied Data Science Using PySpark
نظرات کاربران