- عنوان کتاب: High Performance Spark
- نویسنده: Holden Karau, Adi Polak Rachel Warren
- حوزه: واکشی داده
- سال انتشار: 2026
- تعداد صفحه: 573
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 7.12 مگابایت
ما این کتاب را برای مهندسان داده، دانشمندان داده و متخصصان یادگیری ماشین که به دنبال بیشترین بهره از Spark هستند، نوشتهایم. اگر با Spark کار کردهاید و در Spark سرمایهگذاری کردهاید، اما تجربه شما تاکنون درگیر خطاهای حافظه و شکستهای مرموز و متناوب بوده است، این کتاب برای شما مناسب است. اگر از Spark برای برخی کارهای اکتشافی استفاده کردهاید یا در کنار آن با آن آزمایش کردهاید، اما به اندازه کافی اعتماد به نفس نداشتهاید که آن را در تولید به کار ببرید، این کتاب ممکن است مفید باشد. اگر به Spark علاقهمند هستید، اما بهبود عملکردی را که انتظار داشتید از آن ندیدهاید، امیدواریم این کتاب بتواند کمک کند. این کتاب برای کسانی در نظر گرفته شده است که دانش عملی در مورد Spark دارند و ممکن است برای کسانی که تجربه کمی با Spark یا محاسبات توزیعشده دارند یا اصلاً تجربهای ندارند، درک آن دشوار باشد. برای توصیههای بیشتر در مورد ادبیات مقدماتی، به «کتابها و مطالب پشتیبانی» مراجعه کنید. ما انتظار داریم این متن برای کسانی که به بهینهسازی پرسوجوهای مکرر در تولید اهمیت میدهند، مفیدتر باشد، نه برای کسانی که در درجه اول کارهای اکتشافی انجام میدهند. اگرچه نوشتن کوئریهای با کارایی بالا شاید برای مهندس داده مهمتر باشد، نوشتن این کوئریها با اسپارک، برخلاف سایر چارچوبها، نیاز به دانش خوبی از دادهها دارد که معمولاً برای دانشمند داده شهودیتر است. بنابراین، ممکن است برای یک مهندس داده که ممکن است در تفکر انتقادی در مورد ماهیت آماری، توزیع و چیدمان دادهها هنگام بررسی عملکرد، تجربه کمتری داشته باشد، مفیدتر باشد. امیدواریم این کتاب به مهندسان داده کمک کند تا هنگام قرار دادن خطوط لوله در تولید، در مورد دادههای خود با انتقادیتر فکر کنند. به طور مشابه، برای دانشمندان داده، امیدواریم درک بیشتری از نحوه کار اسپارک ارائه دهیم تا بتوانند از دانش خود در مورد دادهها برای کوئریهای با کارایی بالا استفاده کنند. ما میخواهیم به خوانندگان خود کمک کنیم تا سؤالاتی مانند «دادههای من چگونه توزیع شدهاند؟» «آیا کج است؟» «دامنه مقادیر در یک ستون چیست؟» و «چگونه انتظار داریم یک مقدار معین گروهبندی شود؟» را بپرسند و سپس پاسخهای این سؤالات را در منطق کوئریهای اسپارک خود اعمال کنند. با این حال، حتی برای دانشمندان داده که عمدتاً برای اهداف اکتشافی از Spark استفاده میکنند، این کتاب باید بینش مهمی در مورد نوشتن کوئریهای Spark کارآمد ایجاد کند، به طوری که با افزایش ناگزیر مقیاس تحلیل اکتشافی، شانس بهتری برای اجرای چیزی برای اولین بار داشته باشید. ما امیدواریم دانشمندان داده، حتی آنهایی که از قبل با تفکر توزیعشده در مورد دادهها راحت هستند، را راهنمایی کنیم تا در مورد نحوه ارزیابی برنامههایشان به طور انتقادی فکر کنند و آنها را قادر سازیم تا دادههای خود را کاملتر و سریعتر کاوش کنند و به طور مؤثر با هر کسی که به آنها در تولید الگوریتمهایشان کمک میکند، ارتباط برقرار کنند. صرف نظر از عنوان شغلی شما، احتمالاً میزان دادههایی که با آنها کار میکنید به سرعت در حال افزایش است. ممکن است راهحلهای اولیه شما نیاز به مقیاسبندی داشته باشند و تکنیکهای قدیمی شما برای حل مشکلات جدید نیاز به بهروزرسانی داشته باشند. امیدواریم این کتاب به شما کمک کند تا از Apache Spark برای حل آسانتر مشکلات جدید و کارآمدتر مشکلات قدیمی استفاده کنید.
We wrote this book for data engineers, data scientists, and ML practitioners who are looking to get the most out of Spark. If you’ve been working with Spark and invested in Spark but your experience so far has been mired by memory errors and mysterious, intermittent failures, this book is for you. If you have been using Spark for some exploratory work or experimenting with it on the side but have not felt confident enough to put it into production, this book may help. If you are enthusiastic about Spark but have not seen the performance improvements from it that you expected, we hope this book can help. This book is intended for those who have some working knowledge of Spark and may be difficult to understand for those with little or no experience with Spark or distributed computing. For recommendations of more introductory literature, see “Supporting Books and Materials”. We expect this text will be most useful to those who care about optimizing repeated queries in production, rather than to those who are primarily doing exploratory work. While writing highly performant queries is perhaps more important to the data engineer, writing those queries with Spark, in contrast to other frameworks, requires a good knowledge of the data, which is usually more intuitive to the data scientist. Thus, it may be more useful to a data engineer who may be less experienced with thinking critically about the statistical nature, distribution, and layout of data when considering performance. We hope that this book will help data engineers think more critically about their data as they put pipelines into production. Similarly for data scientists we hope to provide more understanding of how Spark works so they can use their knowledge of the data for high performance queries. We want to help our readers ask questions such as “How is my data distributed?” “Is it skewed?” “What is the range of values in a column?” and “How do we expect a given value to group?” and then apply the answers to those questions to the logic of their Spark queries. However, even for data scientists using Spark mostly for exploratory purposes, this book should cultivate some important intuition about writing performant Spark queries, so that as the scale of the exploratory analysis inevitably grows, you may have a better shot of getting something to run the first time. We hope to guide data <span class=”keeptogether”> scientists</span>, even those who are already comfortable thinking about data in a distributed way, to think critically about how their programs are evaluated, empowering them to explore their data more fully and more quickly and to communicate effectively with anyone helping them put their algorithms into production. Regardless of your job title, it is likely that the amount of data with which you are working is growing quickly. Your original solutions may need to be scaled, and your old techniques for solving new problems may need to be updated. We hope this book will help you leverage Apache Spark to tackle new problems more easily and old problems more efficiently.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: High Performance Spark





نظرات کاربران