0

دانلود کتاب Apache Polaris – راهنمای قطعی غنی‌سازی داده‌های آپاچی آیسبرگ، دریاچه‌ها با یک کاتالوگ متن‌باز

  • عنوان کتاب: Apache Polaris -The Definitive Guide Enriching Apache Iceberg Data Lakehouses with an Open Source Catalog
  • نویسنده: Alex Merced, Andrew Madson, Tomer Shiran
  • حوزه: انبار داده
  • سال انتشار: 2025
  • تعداد صفحه: 258
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 4.53 مگابایت

به آپاچی پولاریس خوش آمدید: راهنمای قطعی. این کتاب به گونه‌ای طراحی شده است که شما را در مسیر ساخت و مدیریت خانه‌های داده مقیاس‌پذیر، امن و انعطاف‌پذیر با آپاچی پولاریس™، یک پروژه کاتالوگ نوآورانه و جامعه‌محور، راهنمایی کند. با ادامه تکامل خانه‌های داده، پولاریس نماینده نسل بعدی راه‌حل‌های کاتالوگ است که مدیریت یکپارچه داده، کنترل دسترسی مبتنی بر نقش و پشتیبانی از چند کاتالوگ را ارائه می‌دهد، در عین حال استانداردهای باز و قابلیت همکاری را در محیط‌های ابری و درون سازمانی ارتقا می‌دهد. داستان آپاچی پولاریس با معماری خانه‌های داده و نقش حیاتی که آپاچی آیسبرگ™ در کارآمد، قابل اعتماد و قابل دسترس کردن خانه‌های داده ایفا می‌کند، آغاز می‌شود. در بخش اول این کتاب، به ریشه‌ها و معماری خانه‌های داده عمیقاً خواهیم پرداخت، چالش‌هایی را که برای حل آنها طراحی شده‌اند بررسی خواهیم کرد و قابلیت‌هایی را که آپاچی آیسبرگ به دریاچه‌های داده مدرن می‌آورد، بررسی خواهیم کرد. با افزایش نقش محوری داده‌ها در تمام جنبه‌های عملیات تجاری، قالب جدول قوی Iceberg به عنوان ابزاری ضروری برای مدیریت داده‌ها در مقیاس بزرگ ظهور کرده است و ویژگی‌های ضروری مانند تراکنش‌های ACID، تکامل طرحواره و پرس‌وجوی کارآمد را ارائه می‌دهد. همچنین بررسی خواهیم کرد که چگونه کاتالوگ‌های Iceberg در ابتدا برای زنده کردن این قالب جدول توسعه داده شدند و به پایگاه‌های داده اجازه دادند تا در دسترس‌تر و سازگارتر شوند. Apache Polaris تلاشی است که در بنیاد نرم‌افزار آپاچی (ASF) در حال گذراندن دوره جوجه‌کشی است و توسط مرکز جوجه‌کشی آپاچی حمایت می‌شود. دوره جوجه‌کشی برای همه پروژه‌های تازه پذیرفته شده لازم است تا زمانی که بررسی بیشتر نشان دهد که زیرساخت، ارتباطات و فرآیند تصمیم‌گیری به شیوه‌ای سازگار با سایر پروژه‌های موفق ASF تثبیت شده‌اند. در حالی که وضعیت جوجه‌کشی لزوماً نشان دهنده کامل بودن یا پایداری کد نیست، نشان می‌دهد که این پروژه هنوز به طور کامل توسط ASF تأیید نشده است. اما حتی با وجود قدرت Iceberg، نیاز به نسل جدیدی از کاتالوگ‌ها آشکارتر شده است. فصل 2 دنیای متنوع کاتالوگ‌های Iceberg را معرفی می‌کند و مزایای منحصر به فرد آنها و چالش‌هایی را که با داشتن گزینه‌های متعدد کاتالوگ همراه است، برجسته می‌کند. از کاتالوگ‌های مبتنی بر فایل گرفته تا راه‌حل‌های مبتنی بر سرویس، خواهید دید که چگونه هر کاتالوگ ویژگی‌های منحصر به فردی را ارائه می‌دهد، اما همچنین پیچیدگی‌هایی را نیز به همراه دارد، به خصوص هنگامی که در محیط‌ها و ابزارهای داده متنوع مستقر می‌شود. این ما را به مشخصات کاتالوگ REST آپاچی آیسبرگ می‌رساند، که برای ساده‌سازی تعاملات کلاینت در پیاده‌سازی‌های کاتالوگ توسعه داده شده است، و پشتیبانی و ادغام بین زبانی با سرویس‌های مدیریت شده را ساده‌تر و سازگارتر می‌کند. پایه و اساس پولاریس بر اساس این مشخصات REST بنا شده است و با پرداختن به برخی از مهم‌ترین چالش‌های مدیریت داده‌ها در حال حاضر، آن را فراتر می‌برد. در بخش دوم، آپاچی پولاریس را به عنوان نوع جدیدی از کاتالوگ آیسبرگ بررسی خواهیم کرد. پولاریس یک معماری چند کاتالوگی را ارائه می‌دهد که سازمان‌ها را قادر می‌سازد تا کاتالوگ‌های متعددی را با نقش‌ها و کنترل‌های دسترسی متمایز حفظ کنند و اطمینان حاصل کنند که هر کاتالوگ در عین حال که به صورت مرکزی اداره می‌شود، هدف خاص خود را نیز برآورده می‌کند. علاوه بر این، پولاریس به کاربران اجازه می‌دهد تا کاتالوگ‌های خارجی را که از مشخصات REST پشتیبانی می‌کنند، متصل کنند و یک محیط یکپارچه ایجاد کنند که در آن جداول آیسبرگ در سیستم‌های کاتالوگ قابل کشف هستند. در این بخش، درک عمیق‌تری از مدل امنیتی پولاریس، از جمله کنترل دسترسی مبتنی بر نقش (RBAC) به دست خواهید آورد و بهترین شیوه‌ها را برای مدیریت مجوزها در مقیاس بزرگ خواهید آموخت. همچنین به بررسی Git-for-Data، یک ویژگی منحصر به فرد اکوسیستم که امکان عملیات داده نسخه‌بندی شده، شاخه‌بندی و برچسب‌گذاری را فراهم می‌کند، خواهیم پرداخت – قابلیت‌های قدرتمندی که نسخه‌بندی داده‌ها را به سادگی نسخه‌بندی نرم‌افزار می‌کنند. در بخش سوم، رویکردی عملی برای کار با Polaris اتخاذ می‌کنیم و با استقرار و پیکربندی در فصل 6 شروع می‌کنیم. در اینجا، یاد خواهید گرفت که چگونه Polaris را به صورت محلی راه‌اندازی کنید، چندین کاتالوگ را مدیریت کنید، نقش‌های دسترسی را پیکربندی کنید و کنترل‌های امنیتی را ادغام کنید. فصل‌های بعدی راهنماهای عملی در مورد استفاده از Polaris با ابزارهای داده محبوب، از جمله Apache Spark™، Snowflake و Dremio ارائه می‌دهند. این فصل‌ها شما را در تنظیم اتصالات، اجرای پرس‌وجوها، مدیریت داده‌ها و استفاده از قابلیت‌های منحصر به فرد هر ابزار راهنمایی می‌کنند و نشان می‌دهند که چگونه Polaris می‌تواند به عنوان ستون فقرات یک محیط داده قوی و بدون ابزار عمل کند.

Welcome to Apache Polaris: The Definitive Guide. This book is designed to guide you through the journey of building and managing scalable, secure, and flexible data lakehouses with Apache Polaris™, an innovative, community-driven catalog project. As data lakehouses continue to evolve, Polaris represents the next generation of catalog solutions, offering unified data management, role-based access control, and multi-catalog support, all while promoting open standards and interoperability across cloud and on-premise environments. The story of Apache Polaris begins with the data lakehouse architecture and the critical role that Apache Iceberg™ plays in making data lakehouses performant, reliable, and accessible. In the first part of this book, we’ll dive deep into the origins and architecture of data lakehouses, explore the challenges they were designed to solve, and walk through the capabilities that Apache Iceberg brings to modern data lakes. As data becomes increasingly central to all aspects of business operations, Iceberg’s robust table format has emerged as an essential tool for managing data at scale, providing essential features like ACID transactions, schema evolution, and efficient querying. We’ll also look at how Iceberg catalogs originally developed to bring this table format to life, allowing data lakehouses to become more accessible and consistent. Apache Polaris is an effort undergoing incubation at The Apache Software Foundation (ASF), sponsored by the Apache Incubator. Incubation is required of all newly accepted projects until a further review indicates that the infrastructure, communications, and decision making process have stabilized in a manner consistent with other successful ASF projects. While incubation status is not necessarily a reflection of the completeness or stability of the code, it does indicate that the project has yet to be fully endorsed by the ASF. But even with the power of Iceberg, the need for a new generation of catalogs has grown clearer. Chapter 2 introduces the diverse world of Iceberg catalogs, highlighting their unique advantages and the challenges that come with having multiple catalog options. From file-based catalogs to service-driven solutions, you’ll see how each catalog provides unique features but also introduces complexity, especially when deployed across diverse environments and data tools. This leads us to the Apache Iceberg REST Catalog Specification, which was developed to streamline client interactions across catalog implementations, making cross-language support and integration with managed services simpler and more consistent. The foundation of Polaris builds on this REST specification, taking it further by tackling some of the most pressing challenges in data management today. In Part II, we’ll explore Apache Polaris as a new kind of Iceberg catalog. Polaris brings a multi-catalog architecture, enabling organizations to maintain multiple catalogs with distinct roles and access controls, ensuring that each catalog serves its specific purpose while being centrally governed. Additionally, Polaris allows users to connect external catalogs that support the REST Spec, creating a unified environment where Iceberg tables are discoverable across catalog systems. In this part, you’ll gain a deeper understanding of Polaris’s security model, including role-based access control (RBAC), and learn best practices for managing permissions at scale. We’ll also delve into Git-for-Data, a unique ecosystem feature that allows for versioned data operations, branching, and tagging—powerful capabilities that make data versioning as straightforward as software versioning. In Part III, we take a hands-on approach to working with Polaris, starting with deployment and configuration in Chapter 6. Here, you’ll learn how to set up Polaris locally, manage multiple catalogs, configure access roles, and integrate security controls. The following chapters provide practical guides on using Polaris with popular data tools, including Apache Spark™, Snowflake, and Dremio. These chapters will walk you through setting up connections, executing queries, managing data, and utilizing each tool’s unique capabilities, demonstrating how Polaris can serve as the backbone of a robust, tool-agnostic data lakehouse environment.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Apache Polaris

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بیشتر بخوانید

X
آموزش نقاشی سیاه قلم کلیک کنید