مجله علمی تفریحی بیبیس
0

دانلود کتاب تحلیل داده با پایتون و PySpark

بازدید 649

در حالی که کامپیوترها با وجود مجموعه داده‌های بزرگ‌تر، قدرتمندتر و توانایی حضم آنها بیشتر شده‌اند، اشتهای ما برای مصرف داده‌ها بسیار سریع‌تر رشد می‌کند. در نتیجه، ابزارهای جدیدی برای مقیاس‌بندی کارهای داده‌های بزرگ در چندین ماشین ساختیم. این به صورت رایگان ارائه نمی شود و ابزارهای اولیه با الزام کاربران به مدیریت نتنها برنامه داده، بلکه همچنین سلامت و عملکرد خود خوشه ماشین ها، پیچیده بودند. به یاد می‌آورم که سعی کردم برنامه‌های خودم را مقیاس‌بندی کنم، اما با این توصیه مواجه شدم که «فقط مجموعه داده‌های خود را نمونه‌برداری کنید و به روز خود ادامه دهید».
PySpark بازی را تغییر می دهد. با شروع با زبان برنامه نویسی محبوب پایتون، یک API واضح و خوانا برای دستکاری مجموعه داده های بسیار بزرگ ارائه می دهد. با این حال، زمانی که در صندلی راننده نشسته اید، به گونه ای کد می نویسید که گویی با یک دستگاه سر و کار دارید. PySpark در تقاطع قدرتمند، رسا و همه کاره قرار دارد. از طریق یک مدل داده چند بعدی قدرتمند، می‌توانید برنامه‌های داده خود را با مسیری واضح برای مقیاس‌پذیری، بدون توجه به اندازه داده‌ها، بسازید.

While computers have been getting more powerful and more capable of chewing though larger data sets, our appetite for consuming data grows much faster. Consequently, we built new tools to scale big data jobs across multiple machines. This does not come for free, and early tools were complicated by requiring users to manage not only the data program, but also the health and performance of the cluster of machines themselves. I recall trying to scale my own programs, only to be faced with the advice to “just sample your data set and get on with your day.”
PySpark changes the game. Starting with the popular Python programming language, it provides a clear and readable API to manipulate very large data sets. Still, while in the driver’s seat, you write code as if you were dealing with a single machine. PySpark sits at the intersection of powerful, expressive, and versatile. Through a powerful multidimensional data model, you can build your data programs with a clear path to scalability, regardless of the data size.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Data Analysis with Python and PySpark

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.