- عنوان: Amazon Redshift Cookbook, 2nd Edition, Recipes for building modern data warehousing solutions
- نویسنده: Shruti Worlikar
- حوزه: انبار داده
- سال انتشار: 2025
- تعداد صفحه: 469
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 9.44 مگابایت
Amazon Redshift یک سرویس انبار داده ابری AWS کاملاً مدیریتشده و در مقیاس پتابایت است. این سرویس شما را قادر میسازد تا بارهای کاری انبار داده جدیدی را در AWS ایجاد کنید و پلتفرمهای انبار داده سنتی داخلی را به Redshift منتقل کنید. این کتاب در مورد Amazon Redshift با تمرکز بر معماری Redshift شروع میشود و به شما نشان میدهد که چگونه وظایف مدیریت پایگاه داده را در Redshift انجام دهید. سپس یاد خواهید گرفت که چگونه انبار داده خود را برای اجرای سریع پرسوجوهای تحلیلی پیچیده در مجموعه دادههای بسیار بزرگ بهینه کنید. به دلیل حجم عظیم دادههای درگیر در انبار داده، طراحی پایگاه داده شما برای پردازش تحلیلی به شما امکان میدهد تا از معماری ستونی و سرویسهای مدیریتشده Redshift نهایت استفاده را ببرید. با پیشرفت، نحوه استقرار فرآیندهای استخراج، تبدیل و بارگذاری (ETL) کاملاً خودکار و بسیار مقیاسپذیر را کشف خواهید کرد که به حداقل رساندن تلاشهای عملیاتی که باید در مدیریت خطوط لوله ETL منظم سرمایهگذاری کنید و بهروزرسانی به موقع و دقیق انبار داده خود را تضمین کنید، کمک میکند. شما درک روشنی از موارد استفاده Redshift، دریافت دادهها، مدیریت دادهها، امنیت و مقیاسبندی به دست خواهید آورد تا بتوانید یک پلتفرم انبار داده مقیاسپذیر بسازید. در نهایت، شما با روندهای نوظهور در استفاده از انبارهای داده Redshift برای فعال کردن موارد استفاده هوش مصنوعی/یادگیری ماشین آشنا خواهید شد. در پایان این کتاب Redshift، شما قادر خواهید بود یک راهحل تجزیه و تحلیل داده مبتنی بر Redshift را پیادهسازی کنید و بهترین راهحلهای عملی برای مشکلات رایج را درک خواهید کرد. این کتاب برای هر کسی که در معماری، پیادهسازی و بهینهسازی یک انبار داده Amazon Redshift، مانند توسعهدهندگان انبار داده، تحلیلگران داده، مدیران پایگاه داده، مهندسان داده و دانشمندان داده، درگیر است، مناسب است. دانش پایه در مورد انبار داده، سیستمهای پایگاه داده و مفاهیم ابری و آشنایی با Redshift مفید خواهد بود.
آنچه این کتاب پوشش میدهد:
فصل 1، شروع به کار با Amazon Redshift، در مورد چگونگی مدیریت کامل Amazon Redshift به عنوان یک سرویس انبار داده در مقیاس پتابایت در ابر بحث میکند. یک انبار داده Amazon Redshift در دو گزینه استقرار ارائه میشود: خوشههای آماده (با یک گره رهبر و چندین گره محاسباتی) و بدون سرور (با آمادهسازی و مقیاسبندی خودکار). Amazon Redshift برای دسترسی یکپارچه به دادههای ساختاریافته و نیمه ساختاریافته، با معماری lakehouse ادغام میشود. این فصل راهنماییهای عملی برای ایجاد و اتصال به منابع Amazon Redshift از طریق روشهای مختلف ارائه میدهد. فصل 2، مدیریت دادهها، در مورد چگونگی اهداف طراحی بسیار متفاوت یک سیستم انبار داده در مقایسه با یک سیستم پایگاه داده رابطهای تراکنشگرای معمولی برای پردازش تراکنش آنلاین (OLTP) بحث میکند. Amazon Redshift برای اجرای بسیار سریع پرسوجوهای تحلیلی پیچیده در برابر مجموعه دادههای بسیار بزرگ بهینه شده است. به دلیل حجم عظیم دادههای موجود در انبار دادهها، طراحی پایگاه داده شما برای پردازش تحلیلی به شما امکان میدهد تا از معماری ستونی و سرویس مدیریتشده نهایت استفاده را ببرید. این فصل به گزینههای مختلف ساختار داده برای تنظیم یک طرح تحلیلی برای پرسوجوی آسان کاربران نهایی شما میپردازد. فصل 3، بارگیری و تخلیه دادهها، به چگونگی ادغام داخلی Amazon Redshift با دریاچههای داده و سایر سرویسهای تحلیلی و چگونگی جابجایی و تجزیه و تحلیل آسان دادهها در سرویسهای مختلف میپردازد. این فصل به گزینههای مقیاسپذیر برای انتقال مجموعه دادههای بزرگ از یک دریاچه داده مبتنی بر ذخیرهسازی Amazon S3 و همچنین سرویسهای تحلیلی AWS مانند Amazon DynamoDB، دریافت از منابع تراکنشی با استفاده از AWS DMS، فهرستبندی با AWS Glue و پخش از طریق Amazon Kinesis Data Firehose میپردازد. فصل 4، Zero-ETL Ingestions، AWS zero-ETL را به عنوان مجموعهای انقلابی از ادغامهای کاملاً مدیریتشده معرفی میکند که فرآیندهای تجزیه و تحلیل دادهها را ساده میکند. این فصل بررسی میکند که چگونه zero-ETL با تکثیر خودکار دادهها از منابع عملیاتی به مقاصد تحلیلی، پیچیدگیهای ETL سنتی را از بین میبرد و بینشهای بلادرنگ را بدون نیاز به مدیریت پیچیده خط لوله داده امکانپذیر میکند. این فصل روشهای مختلف ادغام zero-ETL، از جمله ادغامهای پایگاه داده بومی، دریافت از برنامههای SaaS، دریافت جریانی دادهها و دریافت تقریباً بلادرنگ از Amazon S3 با استفاده از کپی خودکار را پوشش میدهد. این راهکارها به طور قابل توجهی زمان لازم برای بینش را کاهش میدهند، ثبات دادهها را تضمین میکنند و به سازمانها اجازه میدهند عملیات داده خود را به طور موثر مقیاسبندی کنند و در عین حال جدایی بین حجم کار تراکنشی و تحلیلی را حفظ کنند و در نهایت تصمیمگیری سریعتر و مبتنی بر داده را با کاهش سربار عملیاتی و پیچیدگی فنی امکانپذیر سازند. فصل 5، هماهنگسازی مقیاسپذیر دادهها برای اتوماسیون، مجموعه جامع خدمات بومی AWS را برای ادغام و اتوماسیون گردش کار بررسی میکند. این فصل بر گردشهای کاری فرآیند ETL برای بهروزرسانی انبار داده تمرکز دارد و نشان میدهد که چگونه میتوان وظایف مختلف را به طور مستقل با استفاده از خدمات هدفمند مدیریت کرد. این فصل روشهای مختلف هماهنگسازی، از جمله زمانبندی پرسوجو، برنامههای مبتنی بر رویداد، هماهنگسازی گردش کار و مدیریت خط لوله را پوشش میدهد…
Amazon Redshift is a fully managed, petabyte-scale AWS cloud data warehousing service. It enables you to build new data warehouse workloads on AWS and migrate on-premises traditional data warehousing platforms to Redshift. This book on Amazon Redshift starts by focusing on the Redshift architecture, showing you how to perform database administration tasks on Redshift. You’ll then learn how to optimize your data warehouse to quickly execute complex analytic queries against very large datasets. Because of the massive amount of data involved in data warehousing, designing your database for analytical processing lets you take full advantage of Redshift’s columnar architecture and managed services. As you advance, you’ll discover how to deploy fully automated and highly scalable extract, transform, and load (ETL) processes, which help minimize the operational efforts that you have to invest in managing regular ETL pipelines and ensure the timely and accurate refreshing of your data warehouse. You’ll gain a clear understanding of Redshift use cases, data ingestion, data management, security, and scaling so that you can build a scalable data warehouse platform. Finally, you’ll learn emerging trends in utilizing Redshift data warehouses to enable AI/ML use cases. By the end of this Redshift book, you’ll be able to implement a Redshift-based data analytics solution and will have understood the best-practice solutions to commonly faced problems. This book is for anyone involved in architecting, implementing, and optimizing an Amazon Redshift data warehouse, such as data warehouse developers, data analysts, database administrators, data engineers, and data scientists. Basic knowledge of data warehousing, database systems, and cloud concepts and familiarity with Redshift would be beneficial.
What this book covers:
Chapter 1, Getting Started with Amazon Redshift, discusses how Amazon Redshift is a fully managed, petabyte-scale data warehouse service in the cloud. An Amazon Redshift data warehouse comes in two deployment options: provisioned clusters (with one leader node and multiple compute nodes) and serverless (with automatic provisioning and scaling). Amazon Redshift integrates with lakehouse architecture for unified access to structured and semi-structured data. This chapter provides hands-on guidance for creating and connecting to Amazon Redshift resources through various methods. Chapter 2, Data Management, discusses how a data warehouse system has very different design goals compared to a typical transaction-oriented relational database system for online transaction processing (OLTP). Amazon Redshift is optimized for the very fast execution of complex analytic queries against very large datasets. Because of the massive amounts of data involved in data warehousing, designing your database for analytical processing lets you take full advantage of the columnar architecture and managed service. This chapter delves into the different data structure options to set up an analytical schema for the easy querying of your end users. Chapter 3, Loading and Unloading Data, looks at how Amazon Redshift has in-built integrations with data lakes and other analytical services and how it is easy to move and analyze data across different services. This chapter discusses scalable options to move large datasets from a data lake based out of Amazon S3 storage, as well as AWS analytical services such as Amazon DynamoDB, ingesting from transactional sources using AWS DMS, cataloging with AWS Glue, and streaming via Amazon Kinesis Data Firehose. Chapter 4, Zero-ETL Ingestions, introduces AWS zero-ETL as a revolutionary suite of fully managed integrations that streamline data analytics processes. This chapter explores how zero-ETL eliminates traditional ETL complexities by automatically replicating data from operational sources to analytical destinations, enabling real-time insights without the need for complex data pipeline management. It covers various zero-ETL integration methods, including native database integrations, ingestion from SaaS applications, streaming data ingestion, and near-real-time ingestion from Amazon S3 using auto-copy. These solutions significantly reduce time to insight, ensure data consistency, and allow organizations to scale their data operations efficiently while maintaining separation between transactional and analytical workloads, ultimately enabling faster, data-driven decision-making with reduced operational overhead and technical complexity. Chapter 5, Scalable Data Orchestration for Automation, explores AWS’s comprehensive suite of native services for workflow integration and automation. The chapter focuses on ETL process workflows for data warehouse refreshes, demonstrating how different tasks can be managed independently using purpose-built services. It covers various orchestration methods, including query scheduling, event-driven applications, workflow orchestration, and pipeline management. The chapter emphasizes how these tools enable the efficient management of complex data pipelines originating from various sources, supporting downstream applications such as machine learning pipelines, analytics dashboards, and business reports. Chapter 6, Platform Authorization and Security, explores Amazon Redshift’s comprehensive security features designed to meet the requirements of security-sensitive organizations within the AWS Shared Responsibility Model. The chapter covers essential security aspects, including infrastructure security, data encryption, authentication, and metadata security. The chapter emphasizes how these built-in features provide a robust security framework for protecting data while maintaining fine-grained access controls for underlying data structures. Chapter 7, Data Authorization and Security, focuses on Amazon Redshift’s granular data access control mechanisms for protecting sensitive information. The chapter explores key security features focusing on fine-grained access control. These features work together to create a comprehensive security framework that ensures users can only access and modify data according to their authorization level, providing precise control over data visibility and manipulation rights. Chapter 8, Performance Optimization, examines how Amazon Redshift, being a fully managed service, provides great performance out of the box for most workloads. Amazon Redshift also provides you with levers that help you maximize the throughputs when data access patterns are already established. Performance tuning on Amazon Redshift helps you manage critical SLAs for workloads and easily scale up your data warehouse to meet/exceed business needs. Chapter 9, Cost Optimization, discusses how Amazon Redshift is one of the best price-performant data warehouse platforms on the cloud. Amazon Redshift also provides you with scalability and different options to optimize the pricing, such as elastic resizing, pause and resume, Reserved Instances, and using cost controls. These options allow you to create the best price-performant data warehouse solution.
این کتاب را میتوانید بصورت رایگان از لینک زیر دانلود نمایید.
Download: Amazon Redshift Cookbook, 2nd Edition
نظرات کاربران