- عنوان کتاب: Data Analysis with Python and PySpark
- نویسنده: Jonathan Rioux
- حوزه: تحلیل داده, برنامه نویسی پایتون, PySpark
- سال انتشار: 2022
- تعداد صفحه: 458
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 14.93 مگابایت
در حالی که کامپیوترها با وجود مجموعه دادههای بزرگتر، قدرتمندتر و توانایی حضم آنها بیشتر شدهاند، اشتهای ما برای مصرف دادهها بسیار سریعتر رشد میکند. در نتیجه، ابزارهای جدیدی برای مقیاسبندی کارهای دادههای بزرگ در چندین ماشین ساختیم. این به صورت رایگان ارائه نمی شود و ابزارهای اولیه با الزام کاربران به مدیریت نتنها برنامه داده، بلکه همچنین سلامت و عملکرد خود خوشه ماشین ها، پیچیده بودند. به یاد میآورم که سعی کردم برنامههای خودم را مقیاسبندی کنم، اما با این توصیه مواجه شدم که «فقط مجموعه دادههای خود را نمونهبرداری کنید و به روز خود ادامه دهید».
PySpark بازی را تغییر می دهد. با شروع با زبان برنامه نویسی محبوب پایتون، یک API واضح و خوانا برای دستکاری مجموعه داده های بسیار بزرگ ارائه می دهد. با این حال، زمانی که در صندلی راننده نشسته اید، به گونه ای کد می نویسید که گویی با یک دستگاه سر و کار دارید. PySpark در تقاطع قدرتمند، رسا و همه کاره قرار دارد. از طریق یک مدل داده چند بعدی قدرتمند، میتوانید برنامههای داده خود را با مسیری واضح برای مقیاسپذیری، بدون توجه به اندازه دادهها، بسازید.
While computers have been getting more powerful and more capable of chewing though larger data sets, our appetite for consuming data grows much faster. Consequently, we built new tools to scale big data jobs across multiple machines. This does not come for free, and early tools were complicated by requiring users to manage not only the data program, but also the health and performance of the cluster of machines themselves. I recall trying to scale my own programs, only to be faced with the advice to “just sample your data set and get on with your day.”
PySpark changes the game. Starting with the popular Python programming language, it provides a clear and readable API to manipulate very large data sets. Still, while in the driver’s seat, you write code as if you were dealing with a single machine. PySpark sits at the intersection of powerful, expressive, and versatile. Through a powerful multidimensional data model, you can build your data programs with a clear path to scalability, regardless of the data size.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Data Analysis with Python and PySpark
نظرات کاربران