- عنوان کتاب: Learning Spark
- نویسنده: Holden Karau
- حوزه:Spark , برنامه نویسی پایتون
- سال انتشار: 2015
- تعداد صفحه: 274
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 7.82 مگابایت
همانطور که تجزیه و تحلیل داده های موازی رایج شده است، متخصصان در بسیاری از زمینه ها به دنبال ابزارهای ساده تر برای این کار هستند. Apache Spark به سرعت به عنوان یکی از محبوب ترین، توسعه دهنده و تعمیم دهنده MapReduce ظاهر شد. اسپارک سه مزیت اصلی را ارائه می دهد. اول، استفاده از آن آسان است—شما می توانید برنامه های کاربردی را روی لپ تاپ خود با استفاده از یک API سطح بالا توسعه دهید که به شما امکان می دهد روی محتوای محاسبات خود تمرکز کنید. دوم، Spark سریع است و امکان استفاده تعاملی و الگوریتم های پیچیده را فراهم می کند. و سوم، Spark یک موتور عمومی است که به شما امکان می دهد انواع مختلفی از محاسبات را ترکیب کنید (مانند پرس و جوهای SQL، پردازش متن و یادگیری ماشین) که قبلاً ممکن است به موتورهای مختلفی نیاز داشته باشند. این ویژگی ها Spark را به یک نقطه شروع عالی برای یادگیری کلی داده های بزرگ تبدیل می کند. این کتاب مقدماتی قرار است شما را به سرعت با Spark راه اندازی کند. شما یاد خواهید گرفت که چگونه Spark را بر روی لپ تاپ خود دانلود و اجرا کنید و از آن به صورت تعاملی برای یادگیری API استفاده کنید. پس از رسیدن به آنجا، جزئیات عملیات موجود و اجرای توزیع شده را پوشش خواهیم داد. در نهایت، توری از کتابخانههای سطح بالاتر ساخته شده در Spark، از جمله کتابخانههایی برای یادگیری ماشین، پردازش جریانی، و SQL دریافت خواهید کرد. ما امیدواریم که این کتاب ابزارهایی را در اختیار شما قرار دهد تا به سرعت با مشکلات تجزیه و تحلیل داده ها مقابله کنید، خواه این کار را روی یک دستگاه یا صدها دستگاه انجام دهید. این کتاب دانشمندان و مهندسان داده را هدف قرار می دهد. ما این دو گروه را انتخاب کردیم زیرا آنها بیشترین سود را از استفاده از Spark برای گسترش دامنه مشکلاتی که می توانند حل کنند دارند. مجموعهای غنی از کتابخانههای متمرکز بر داده اسپارک (مانند MLlib) این امکان را برای دانشمندان داده که در حین استفاده از پسزمینه آماری خود، فراتر از مشکلاتی که در یک دستگاه قرار میگیرند، فراتر روند. در همین حال، مهندسان یاد خواهند گرفت که چگونه برنامه های توزیع شده عمومی را در Spark بنویسند و برنامه های تولید را اجرا کنند. مهندسان و دانشمندان داده هر دو جزئیات متفاوتی را از این کتاب یاد خواهند گرفت، اما هر دو قادر خواهند بود از Spark برای حل مشکلات بزرگ توزیع شده در زمینه های مربوطه خود استفاده کنند. همانطور که تجزیه و تحلیل داده های موازی رایج شده است، پزشکان در بسیاری از زمینه ها به دنبال ابزارهای ساده تر برای این کار هستند. Apache Spark به سرعت به عنوان یکی از محبوب ترین، توسعه دهنده و تعمیم دهنده MapReduce ظاهر شد. اسپارک سه مزیت اصلی را ارائه می دهد. اول، استفاده از آن آسان است—شما می توانید برنامه های کاربردی را روی لپ تاپ خود با استفاده از یک API سطح بالا توسعه دهید که به شما امکان می دهد روی محتوای محاسبات خود تمرکز کنید. دوم، Spark سریع است و امکان استفاده تعاملی و الگوریتم های پیچیده را فراهم می کند. و سوم، Spark یک موتور عمومی است که به شما امکان می دهد انواع مختلفی از محاسبات را ترکیب کنید (مانند پرس و جوهای SQL، پردازش متن و یادگیری ماشین) که قبلاً ممکن است به موتورهای مختلفی نیاز داشته باشند. این ویژگی ها Spark را به یک نقطه شروع عالی برای یادگیری کلی داده های بزرگ تبدیل می کند. این کتاب مقدماتی قرار است شما را به سرعت با Spark راه اندازی کند. شما یاد خواهید گرفت که چگونه Spark را بر روی لپ تاپ خود دانلود و اجرا کنید و از آن به صورت تعاملی برای یادگیری API استفاده کنید. پس از رسیدن به آنجا، جزئیات عملیات موجود و اجرای توزیع شده را پوشش خواهیم داد. در نهایت، توری از کتابخانههای سطح بالاتر ساخته شده در Spark، از جمله کتابخانههایی برای یادگیری ماشین، پردازش جریانی، و SQL دریافت خواهید کرد. ما امیدواریم که این کتاب ابزارهایی را در اختیار شما قرار دهد تا به سرعت با مشکلات تجزیه و تحلیل داده ها مقابله کنید، خواه این کار را روی یک دستگاه یا صدها دستگاه انجام دهید. این کتاب دانشمندان و مهندسان داده را هدف قرار می دهد. ما این دو گروه را انتخاب کردیم زیرا آنها بیشترین سود را از استفاده از Spark برای گسترش دامنه مشکلاتی که می توانند حل کنند دارند. مجموعهای غنی از کتابخانههای متمرکز بر داده اسپارک (مانند MLlib) این امکان را برای دانشمندان داده که در حین استفاده از پسزمینه آماری خود، فراتر از مشکلاتی که در یک دستگاه قرار میگیرند، فراتر روند. در همین حال، مهندسان یاد خواهند گرفت که چگونه برنامه های توزیع شده عمومی را در Spark بنویسند و برنامه های تولید را اجرا کنند. مهندسان و دانشمندان داده هر دو جزئیات متفاوتی را از این کتاب یاد خواهند گرفت، اما هر دو قادر خواهند بود از Spark برای حل مشکلات بزرگ توزیع شده در زمینه های مربوطه خود استفاده کنند.
As parallel data analysis has grown common, practitioners in many fields have sought easier tools for this task. Apache Spark has quickly emerged as one of the most popular, extending and generalizing MapReduce. Spark offers three main benefits. First, it is easy to use—you can develop applications on your laptop, using a high-level API that lets you focus on the content of your computation. Second, Spark is fast, enabling interactive use and complex algorithms. And third, Spark is a general engine, letting you combine multiple types of computations (e.g., SQL queries, text processing, and machine learning) that might previously have required different engines. These features make Spark an excellent starting point to learn about Big Data in general. This introductory book is meant to get you up and running with Spark quickly. You’ll learn how to download and run Spark on your laptop and use it interactively to learn the API. Once there, we’ll cover the details of available operations and distributed execution. Finally, you’ll get a tour of the higher-level libraries built into Spark, including libraries for machine learning, stream processing, and SQL. We hope that this book gives you the tools to quickly tackle data analysis problems, whether you do so on one machine or hundreds. This book targets data scientists and engineers. We chose these two groups because they have the most to gain from using Spark to expand the scope of problems they can solve. Spark’s rich collection of data-focused libraries (like MLlib) makes it easy for data scientists to go beyond problems that fit on a single machine while using their statistical background. Engineers, meanwhile, will learn how to write generalpurpose distributed programs in Spark and operate production applications. Engineers and data scientists will both learn different details from this book, but will both be able to apply Spark to solve large distributed problems in their respective fields. As parallel data analysis has grown common, practitioners in many fields have sought easier tools for this task. Apache Spark has quickly emerged as one of the most popular, extending and generalizing MapReduce. Spark offers three main benefits. First, it is easy to use—you can develop applications on your laptop, using a high-level API that lets you focus on the content of your computation. Second, Spark is fast, enabling interactive use and complex algorithms. And third, Spark is a general engine, letting you combine multiple types of computations (e.g., SQL queries, text processing, and machine learning) that might previously have required different engines. These features make Spark an excellent starting point to learn about Big Data in general. This introductory book is meant to get you up and running with Spark quickly. You’ll learn how to download and run Spark on your laptop and use it interactively to learn the API. Once there, we’ll cover the details of available operations and distributed execution. Finally, you’ll get a tour of the higher-level libraries built into Spark, including libraries for machine learning, stream processing, and SQL. We hope that this book gives you the tools to quickly tackle data analysis problems, whether you do so on one machine or hundreds. This book targets data scientists and engineers. We chose these two groups because they have the most to gain from using Spark to expand the scope of problems they can solve. Spark’s rich collection of data-focused libraries (like MLlib) makes it easy for data scientists to go beyond problems that fit on a single machine while using their statistical background. Engineers, meanwhile, will learn how to write generalpurpose distributed programs in Spark and operate production applications. Engineers and data scientists will both learn different details from this book, but will both be able to apply Spark to solve large distributed problems in their respective fields.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Learning Spark
نظرات کاربران