- عنوان کتاب: Apache Polaris -The Definitive Guide Enriching Apache Iceberg Data Lakehouses with an Open Source Catalog
- نویسنده: Alex Merced, Andrew Madson, Tomer Shiran
- حوزه: انبار داده
- سال انتشار: 2025
- تعداد صفحه: 258
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 4.53 مگابایت
به آپاچی پولاریس خوش آمدید: راهنمای قطعی. این کتاب به گونهای طراحی شده است که شما را در مسیر ساخت و مدیریت خانههای داده مقیاسپذیر، امن و انعطافپذیر با آپاچی پولاریس™، یک پروژه کاتالوگ نوآورانه و جامعهمحور، راهنمایی کند. با ادامه تکامل خانههای داده، پولاریس نماینده نسل بعدی راهحلهای کاتالوگ است که مدیریت یکپارچه داده، کنترل دسترسی مبتنی بر نقش و پشتیبانی از چند کاتالوگ را ارائه میدهد، در عین حال استانداردهای باز و قابلیت همکاری را در محیطهای ابری و درون سازمانی ارتقا میدهد. داستان آپاچی پولاریس با معماری خانههای داده و نقش حیاتی که آپاچی آیسبرگ™ در کارآمد، قابل اعتماد و قابل دسترس کردن خانههای داده ایفا میکند، آغاز میشود. در بخش اول این کتاب، به ریشهها و معماری خانههای داده عمیقاً خواهیم پرداخت، چالشهایی را که برای حل آنها طراحی شدهاند بررسی خواهیم کرد و قابلیتهایی را که آپاچی آیسبرگ به دریاچههای داده مدرن میآورد، بررسی خواهیم کرد. با افزایش نقش محوری دادهها در تمام جنبههای عملیات تجاری، قالب جدول قوی Iceberg به عنوان ابزاری ضروری برای مدیریت دادهها در مقیاس بزرگ ظهور کرده است و ویژگیهای ضروری مانند تراکنشهای ACID، تکامل طرحواره و پرسوجوی کارآمد را ارائه میدهد. همچنین بررسی خواهیم کرد که چگونه کاتالوگهای Iceberg در ابتدا برای زنده کردن این قالب جدول توسعه داده شدند و به پایگاههای داده اجازه دادند تا در دسترستر و سازگارتر شوند. Apache Polaris تلاشی است که در بنیاد نرمافزار آپاچی (ASF) در حال گذراندن دوره جوجهکشی است و توسط مرکز جوجهکشی آپاچی حمایت میشود. دوره جوجهکشی برای همه پروژههای تازه پذیرفته شده لازم است تا زمانی که بررسی بیشتر نشان دهد که زیرساخت، ارتباطات و فرآیند تصمیمگیری به شیوهای سازگار با سایر پروژههای موفق ASF تثبیت شدهاند. در حالی که وضعیت جوجهکشی لزوماً نشان دهنده کامل بودن یا پایداری کد نیست، نشان میدهد که این پروژه هنوز به طور کامل توسط ASF تأیید نشده است. اما حتی با وجود قدرت Iceberg، نیاز به نسل جدیدی از کاتالوگها آشکارتر شده است. فصل 2 دنیای متنوع کاتالوگهای Iceberg را معرفی میکند و مزایای منحصر به فرد آنها و چالشهایی را که با داشتن گزینههای متعدد کاتالوگ همراه است، برجسته میکند. از کاتالوگهای مبتنی بر فایل گرفته تا راهحلهای مبتنی بر سرویس، خواهید دید که چگونه هر کاتالوگ ویژگیهای منحصر به فردی را ارائه میدهد، اما همچنین پیچیدگیهایی را نیز به همراه دارد، به خصوص هنگامی که در محیطها و ابزارهای داده متنوع مستقر میشود. این ما را به مشخصات کاتالوگ REST آپاچی آیسبرگ میرساند، که برای سادهسازی تعاملات کلاینت در پیادهسازیهای کاتالوگ توسعه داده شده است، و پشتیبانی و ادغام بین زبانی با سرویسهای مدیریت شده را سادهتر و سازگارتر میکند. پایه و اساس پولاریس بر اساس این مشخصات REST بنا شده است و با پرداختن به برخی از مهمترین چالشهای مدیریت دادهها در حال حاضر، آن را فراتر میبرد. در بخش دوم، آپاچی پولاریس را به عنوان نوع جدیدی از کاتالوگ آیسبرگ بررسی خواهیم کرد. پولاریس یک معماری چند کاتالوگی را ارائه میدهد که سازمانها را قادر میسازد تا کاتالوگهای متعددی را با نقشها و کنترلهای دسترسی متمایز حفظ کنند و اطمینان حاصل کنند که هر کاتالوگ در عین حال که به صورت مرکزی اداره میشود، هدف خاص خود را نیز برآورده میکند. علاوه بر این، پولاریس به کاربران اجازه میدهد تا کاتالوگهای خارجی را که از مشخصات REST پشتیبانی میکنند، متصل کنند و یک محیط یکپارچه ایجاد کنند که در آن جداول آیسبرگ در سیستمهای کاتالوگ قابل کشف هستند. در این بخش، درک عمیقتری از مدل امنیتی پولاریس، از جمله کنترل دسترسی مبتنی بر نقش (RBAC) به دست خواهید آورد و بهترین شیوهها را برای مدیریت مجوزها در مقیاس بزرگ خواهید آموخت. همچنین به بررسی Git-for-Data، یک ویژگی منحصر به فرد اکوسیستم که امکان عملیات داده نسخهبندی شده، شاخهبندی و برچسبگذاری را فراهم میکند، خواهیم پرداخت – قابلیتهای قدرتمندی که نسخهبندی دادهها را به سادگی نسخهبندی نرمافزار میکنند. در بخش سوم، رویکردی عملی برای کار با Polaris اتخاذ میکنیم و با استقرار و پیکربندی در فصل 6 شروع میکنیم. در اینجا، یاد خواهید گرفت که چگونه Polaris را به صورت محلی راهاندازی کنید، چندین کاتالوگ را مدیریت کنید، نقشهای دسترسی را پیکربندی کنید و کنترلهای امنیتی را ادغام کنید. فصلهای بعدی راهنماهای عملی در مورد استفاده از Polaris با ابزارهای داده محبوب، از جمله Apache Spark™، Snowflake و Dremio ارائه میدهند. این فصلها شما را در تنظیم اتصالات، اجرای پرسوجوها، مدیریت دادهها و استفاده از قابلیتهای منحصر به فرد هر ابزار راهنمایی میکنند و نشان میدهند که چگونه Polaris میتواند به عنوان ستون فقرات یک محیط داده قوی و بدون ابزار عمل کند.
Welcome to Apache Polaris: The Definitive Guide. This book is designed to guide you through the journey of building and managing scalable, secure, and flexible data lakehouses with Apache Polaris™, an innovative, community-driven catalog project. As data lakehouses continue to evolve, Polaris represents the next generation of catalog solutions, offering unified data management, role-based access control, and multi-catalog support, all while promoting open standards and interoperability across cloud and on-premise environments. The story of Apache Polaris begins with the data lakehouse architecture and the critical role that Apache Iceberg™ plays in making data lakehouses performant, reliable, and accessible. In the first part of this book, we’ll dive deep into the origins and architecture of data lakehouses, explore the challenges they were designed to solve, and walk through the capabilities that Apache Iceberg brings to modern data lakes. As data becomes increasingly central to all aspects of business operations, Iceberg’s robust table format has emerged as an essential tool for managing data at scale, providing essential features like ACID transactions, schema evolution, and efficient querying. We’ll also look at how Iceberg catalogs originally developed to bring this table format to life, allowing data lakehouses to become more accessible and consistent. Apache Polaris is an effort undergoing incubation at The Apache Software Foundation (ASF), sponsored by the Apache Incubator. Incubation is required of all newly accepted projects until a further review indicates that the infrastructure, communications, and decision making process have stabilized in a manner consistent with other successful ASF projects. While incubation status is not necessarily a reflection of the completeness or stability of the code, it does indicate that the project has yet to be fully endorsed by the ASF. But even with the power of Iceberg, the need for a new generation of catalogs has grown clearer. Chapter 2 introduces the diverse world of Iceberg catalogs, highlighting their unique advantages and the challenges that come with having multiple catalog options. From file-based catalogs to service-driven solutions, you’ll see how each catalog provides unique features but also introduces complexity, especially when deployed across diverse environments and data tools. This leads us to the Apache Iceberg REST Catalog Specification, which was developed to streamline client interactions across catalog implementations, making cross-language support and integration with managed services simpler and more consistent. The foundation of Polaris builds on this REST specification, taking it further by tackling some of the most pressing challenges in data management today. In Part II, we’ll explore Apache Polaris as a new kind of Iceberg catalog. Polaris brings a multi-catalog architecture, enabling organizations to maintain multiple catalogs with distinct roles and access controls, ensuring that each catalog serves its specific purpose while being centrally governed. Additionally, Polaris allows users to connect external catalogs that support the REST Spec, creating a unified environment where Iceberg tables are discoverable across catalog systems. In this part, you’ll gain a deeper understanding of Polaris’s security model, including role-based access control (RBAC), and learn best practices for managing permissions at scale. We’ll also delve into Git-for-Data, a unique ecosystem feature that allows for versioned data operations, branching, and tagging—powerful capabilities that make data versioning as straightforward as software versioning. In Part III, we take a hands-on approach to working with Polaris, starting with deployment and configuration in Chapter 6. Here, you’ll learn how to set up Polaris locally, manage multiple catalogs, configure access roles, and integrate security controls. The following chapters provide practical guides on using Polaris with popular data tools, including Apache Spark™, Snowflake, and Dremio. These chapters will walk you through setting up connections, executing queries, managing data, and utilizing each tool’s unique capabilities, demonstrating how Polaris can serve as the backbone of a robust, tool-agnostic data lakehouse environment.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Apache Polaris
نظرات کاربران