0

دانلود کتاب کارایی بالا با Spark

بازدید 91
  • عنوان کتاب: High Performance Spark
  • نویسنده: Holden Karau, Adi Polak Rachel Warren
  • حوزه: واکشی داده
  • سال انتشار: 2026
  • تعداد صفحه: 573
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 7.12 مگابایت

ما این کتاب را برای مهندسان داده، دانشمندان داده و متخصصان یادگیری ماشین که به دنبال بیشترین بهره از Spark هستند، نوشته‌ایم. اگر با Spark کار کرده‌اید و در Spark سرمایه‌گذاری کرده‌اید، اما تجربه شما تاکنون درگیر خطاهای حافظه و شکست‌های مرموز و متناوب بوده است، این کتاب برای شما مناسب است. اگر از Spark برای برخی کارهای اکتشافی استفاده کرده‌اید یا در کنار آن با آن آزمایش کرده‌اید، اما به اندازه کافی اعتماد به نفس نداشته‌اید که آن را در تولید به کار ببرید، این کتاب ممکن است مفید باشد. اگر به Spark علاقه‌مند هستید، اما بهبود عملکردی را که انتظار داشتید از آن ندیده‌اید، امیدواریم این کتاب بتواند کمک کند. این کتاب برای کسانی در نظر گرفته شده است که دانش عملی در مورد Spark دارند و ممکن است برای کسانی که تجربه کمی با Spark یا محاسبات توزیع‌شده دارند یا اصلاً تجربه‌ای ندارند، درک آن دشوار باشد. برای توصیه‌های بیشتر در مورد ادبیات مقدماتی، به «کتاب‌ها و مطالب پشتیبانی» مراجعه کنید. ما انتظار داریم این متن برای کسانی که به بهینه‌سازی پرس‌وجوهای مکرر در تولید اهمیت می‌دهند، مفیدتر باشد، نه برای کسانی که در درجه اول کارهای اکتشافی انجام می‌دهند. اگرچه نوشتن کوئری‌های با کارایی بالا شاید برای مهندس داده مهم‌تر باشد، نوشتن این کوئری‌ها با اسپارک، برخلاف سایر چارچوب‌ها، نیاز به دانش خوبی از داده‌ها دارد که معمولاً برای دانشمند داده شهودی‌تر است. بنابراین، ممکن است برای یک مهندس داده که ممکن است در تفکر انتقادی در مورد ماهیت آماری، توزیع و چیدمان داده‌ها هنگام بررسی عملکرد، تجربه کمتری داشته باشد، مفیدتر باشد. امیدواریم این کتاب به مهندسان داده کمک کند تا هنگام قرار دادن خطوط لوله در تولید، در مورد داده‌های خود با انتقادی‌تر فکر کنند. به طور مشابه، برای دانشمندان داده، امیدواریم درک بیشتری از نحوه کار اسپارک ارائه دهیم تا بتوانند از دانش خود در مورد داده‌ها برای کوئری‌های با کارایی بالا استفاده کنند. ما می‌خواهیم به خوانندگان خود کمک کنیم تا سؤالاتی مانند «داده‌های من چگونه توزیع شده‌اند؟» «آیا کج است؟» «دامنه مقادیر در یک ستون چیست؟» و «چگونه انتظار داریم یک مقدار معین گروه‌بندی شود؟» را بپرسند و سپس پاسخ‌های این سؤالات را در منطق کوئری‌های اسپارک خود اعمال کنند. با این حال، حتی برای دانشمندان داده که عمدتاً برای اهداف اکتشافی از Spark استفاده می‌کنند، این کتاب باید بینش مهمی در مورد نوشتن کوئری‌های Spark کارآمد ایجاد کند، به طوری که با افزایش ناگزیر مقیاس تحلیل اکتشافی، شانس بهتری برای اجرای چیزی برای اولین بار داشته باشید. ما امیدواریم دانشمندان داده، حتی آن‌هایی که از قبل با تفکر توزیع‌شده در مورد داده‌ها راحت هستند، را راهنمایی کنیم تا در مورد نحوه ارزیابی برنامه‌هایشان به طور انتقادی فکر کنند و آن‌ها را قادر سازیم تا داده‌های خود را کامل‌تر و سریع‌تر کاوش کنند و به طور مؤثر با هر کسی که به آن‌ها در تولید الگوریتم‌هایشان کمک می‌کند، ارتباط برقرار کنند. صرف نظر از عنوان شغلی شما، احتمالاً میزان داده‌هایی که با آن‌ها کار می‌کنید به سرعت در حال افزایش است. ممکن است راه‌حل‌های اولیه شما نیاز به مقیاس‌بندی داشته باشند و تکنیک‌های قدیمی شما برای حل مشکلات جدید نیاز به به‌روزرسانی داشته باشند. امیدواریم این کتاب به شما کمک کند تا از Apache Spark برای حل آسان‌تر مشکلات جدید و کارآمدتر مشکلات قدیمی استفاده کنید.

We wrote this book for data engineers, data scientists, and ML practitioners who are looking to get the most out of Spark. If you’ve been working with Spark and invested in Spark but your experience so far has been mired by memory errors and mysterious, intermittent failures, this book is for you. If you have been using Spark for some exploratory work or experimenting with it on the side but have not felt confident enough to put it into production, this book may help. If you are enthusiastic about Spark but have not seen the performance improvements from it that you expected, we hope this book can help. This book is intended for those who have some working knowledge of Spark and may be difficult to understand for those with little or no experience with Spark or distributed computing. For recommendations of more introductory literature, see “Supporting Books and Materials”. We expect this text will be most useful to those who care about optimizing repeated queries in production, rather than to those who are primarily doing exploratory work. While writing highly performant queries is perhaps more important to the data engineer, writing those queries with Spark, in contrast to other frameworks, requires a good knowledge of the data, which is usually more intuitive to the data scientist. Thus, it may be more useful to a data engineer who may be less experienced with thinking critically about the statistical nature, distribution, and layout of data when considering performance. We hope that this book will help data engineers think more critically about their data as they put pipelines into production. Similarly for data scientists we hope to provide more understanding of how Spark works so they can use their knowledge of the data for high performance queries. We want to help our readers ask questions such as “How is my data distributed?” “Is it skewed?” “What is the range of values in a column?” and “How do we expect a given value to group?” and then apply the answers to those questions to the logic of their Spark queries. However, even for data scientists using Spark mostly for exploratory purposes, this book should cultivate some important intuition about writing performant Spark queries, so that as the scale of the exploratory analysis inevitably grows, you may have a better shot of getting something to run the first time. We hope to guide data <span class=”keeptogether”> scientists</span>, even those who are already comfortable thinking about data in a distributed way, to think critically about how their programs are evaluated, empowering them to explore their data more fully and more quickly and to communicate effectively with anyone helping them put their algorithms into production. Regardless of your job title, it is likely that the amount of data with which you are working is growing quickly. Your original solutions may need to be scaled, and your old techniques for solving new problems may need to be updated. We hope this book will help you leverage Apache Spark to tackle new problems more easily and old problems more efficiently.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: High Performance Spark

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

X