- عنوان کتاب: Data Engineering with GCP
- نویسنده: Mahesh T V
- حوزه: مهندسی داده
- سال انتشار: 2026
- تعداد صفحه: 430
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 13.4 مگابایت
با توجه به اینکه شرکتها به طور فزایندهای از استراتژی ترکیبی و چند ابری، اینترنت اشیا (IoT) و هوش مصنوعی برای نوآوری و پیشی گرفتن از رقبای خود استفاده میکنند، تنوع، صحت و حجم دادهها به طور تصاعدی افزایش یافته است. ساخت یک پلتفرم داده سازمانی مقیاسپذیر به طور فزایندهای پیچیده و چالشبرانگیز شده است. این کتاب به عنوان یک راهنمای جامع و کاربردی برای ساخت پلتفرم داده در مقیاس سازمانی در پلتفرم ابری گوگل (GCP) طراحی شده است که از خدمات داده مدیریتشده نوآورانه و بدون سرور آن بهره میبرد. این کتاب به گونهای ساختار یافته است که با مفاهیم کلیدی پایه مهندسی داده شروع شود. این کتاب طیف گستردهای از خدمات مهندسی داده GCP را برای دریافت داده، ذخیرهسازی داده، انبار داده و تبدیل داده پوشش میدهد. این کتاب همچنین توضیح میدهد که چگونه میتوان از دادههای گردآوریشده برای تجزیه و تحلیل و یادگیری ماشین استفاده کرد. در نهایت، این کتاب مباحث پیشرفتهای مانند مهاجرت دادهها، اشتراکگذاری دادهها و روندهای نوظهور در رشته مهندسی داده در GCP را نیز پوشش میدهد. در سراسر کتاب، قابلیتهای کلیدی و پیکربندی سرویسهای داده مختلف را خواهید آموخت. همچنین یاد خواهید گرفت که چگونه این سرویسها را با ارائه قابلیت اطمینان، مقیاسپذیری و امنیت در سطح سازمانی طراحی کنید. فصلهای مختلف این کتاب همچنین موارد کاربردی عملی و مثالهایی را ارائه میدهند تا جدا از مفاهیم نظری، دیدگاهی عملی ارائه دهند. این کتاب برای مبتدیان، چه دانشجویان و چه متخصصانی که آرزوی تبدیل مهندسی داده به شغل خود را دارند، در نظر گرفته شده است. این کتاب همچنین برای متخصصان باتجربه مهندسی داده که میخواهند دانش خود را گسترش داده و مهارتهای خود را در مهندسی داده در GCP بهبود بخشند، طراحی شده است. با این کتاب، شما دانش و مهارتهای لازم را برای تبدیل شدن به یک مهندس داده و معمار داده ماهر و باتجربه به دست خواهید آورد. مهندسان یادگیری ماشین و دانشمندان داده نیز این کتاب را برای درک مهندسی داده در GCP بسیار آموزنده خواهند یافت تا در نقشهای خود کارآمد باشند. فصل 1: مبانی مهندسی داده – مفاهیم مهم مختلف مهندسی داده را معرفی میکند. این فصل فرآیند سرتاسری را از دریافت دادهها، ذخیرهسازی دادهها تا تبدیل و پردازش، از جمله مفاهیم ETL و ELT، توضیح میدهد. علاوه بر این، این فصل همچنین به خواننده مروری بر طراحی راهحلهای مهندسی داده مقیاسپذیر، قابل اعتماد و ایمن میدهد. فصل 2: خدمات مهندسی داده در GCP – این فصل اجزا و خدمات مختلف موجود در GCP برای مهندسی داده را معرفی میکند و با مقایسه قابلیتهای آن با سایر ابرهای عمومی پیشرو، توضیح میدهد که چرا این پلتفرم ابری پیشرو برای مهندسی داده است. این فصل همچنین به بررسی تنظیمات محیط GCP میپردازد که در فصلهای بعدی برای تمرینهای عملی مورد نیاز خواهد بود. این تنظیمات محیط شامل جزئیاتی در مورد نحوه ساختار منطقی سرویسهای Google Cloud در پروژهها، دسترسی و مدیریت کاربر و همچنین مفاهیم اصلی شبکه است که خواننده باید برای استفاده مؤثر از مفاهیم مطرح شده در بقیه فصلها از آنها آگاه باشد. فصل 3: سرویس انبار داده BigQuery – در این فصل، خواننده با مفهوم انبار داده و تفاوت آن با پایگاههای داده تراکنشی معمولی آشنا میشود. سپس این فصل سرویس BigQuery را معرفی میکند و کنسول BigQuery را در کنسول Cloud توضیح میدهد. علاوه بر این، تمام ویژگیهای موجود در کنسول برای وارد کردن، ذخیره و پرس و جو دادهها و قابلیتهای ادغام آن را توضیح میدهد. همچنین، معماری، بهترین شیوههای کلیدی و استانداردهای عملکرد بالا را پوشش میدهد. در نهایت، تمرین عملی گام به گام ایجاد و استفاده از سرویس BigQuery ارائه میشود. فصل 4: دریافت داده با استفاده از Pub/Sub و Dataflow – این فصل مفاهیم مختلف مربوط به دریافت داده را در حین ساخت یک خط لوله پردازش داده توضیح میدهد. سرویس Pub/Sub و سرویس Dataflow را معرفی میکند و جزئیات نحوه پیکربندی این سرویسها را برای سناریوها/موارد استفاده مختلف توضیح میدهد. همچنین مفهوم ثبت دادههای تغییر را که یک مفهوم مهم برای پردازش جریان بلادرنگ است، به تفصیل توضیح میدهد. سرویس جریان داده و نحوه پیکربندی آن برای CDC و استفاده در Dataflow را توضیح میدهد. در نهایت، این فصل تمرین عملی در مورد ایجاد یک خط لوله داده انتها به انتها در Dataflow با استفاده از Apache Beam ارائه میدهد. فصل 5: ETL و ارکستراسیون با استفاده از Cloud Composer – در این فصل، خواننده با ارکستراسیون خط لوله داده و اینکه چرا یک نکته مهم در راهاندازی خطوط لوله داده پیچیده است، آشنا میشود. سپس Apache Airflow را برای ارکستراسیون و روشهای مختلف اجرای Apache Airflow در GCP معرفی میکند. علاوه بر این، سرویس cloud composer را در GCP برای اجرا و برنامهریزی Apache Airflow توضیح میدهد. در نهایت، راهنمایی گام به گام در مورد ایجاد یک خط لوله چند مرحلهای در GCP برای دستیابی به نتایج مطلوب ارائه میدهد. فصل 6: دریاچههای داده با استفاده از ذخیرهسازی ابری و Dataproc – مفهوم دریاچه داده را معرفی میکند. همچنین دریاچههای داده و انبارهای داده را مقایسه میکند و اینکه چرا آنها مکمل یکدیگر هستند.
With enterprises increasingly adopting a hybrid and multi-cloud strategy, Internet of Things (IoT) and artificial intelligence to innovate and stay ahead of its competitors, the variety, veracity and volume of data has exponentially increased. Building a scalable enterprise data platform has increasingly become complex and a challenge. This book is designed to serve as a comprehensive and practical guide to building enterprise scale data platform in Google Cloud Platform (GCP) leveraging its innovative, serverless managed data services. The book is structured to start with the key foundation concepts of data engineering. It covers a wide range of GCP data engineering services for data ingestion, data storage, data warehouse and data transformation. The book also explains how the curated data can be used for analytics and machine learning. Finally, the book also covers advanced topics such as data migration, data sharing and emerging trends in the discipline of data engineering in GCP. Throughout the book, you will learn the key capabilities and configuration of the various data services. You will also learn how to design these services providing enterprise grade reliability, scalability and security. The various chapters in this book also provide hands-on practical use cases and examples to provide a practical perspective apart from the theoretical concepts. This book is intended for beginners both students and professionals who have an ambition to make data engineering as their career in roles. The book is also designed for experienced data engineer professionals who want to expand their knowledge and improve their skills in data engineering in GCP. With this book, you will gain the knowledge and skills to become a proficient and skilled data engineer and data architect. Machine learning engineers and data scientists will also find this book very informative to understand data engineering in GCP to be efficient in their roles. Chapter 1: Foundations of Data Engineering – Introduces the various important concepts of data engineering. This chapter explains the end to end process from data ingestion, data storage to transformation and processing including the conecpts of ETL and ELT. Furthermore, this chapter also gives the reader an overview of designing scalable, reliable and secure data engineering solutions. Chapter 2: Data Engineering Services in GCP – This chapter introduces the various components and services available in GCP for data engineering and explains why it is the leading cloud platform for data engineering by comparing its capabilities with the other leading public clouds. This chapter also walks through the GCP environment setup which will be needed in further chapters for hand-on exercises. This environment setup will include details on how Google Cloud services are logically structured in projects, the user access and management as well as core networking concepts which the reader should be aware of to make effective use of the concepts covered in the rest of the chapters. Chapter 3: BigQuery Data Warehousing Service – In this chapter, the reader is introduced to the concept of data warehousing and how it is different from normal transactional databases. The chapter then introduces the BigQuery service and explains the BigQuery console in the Cloud console. Further, it explains all the features available in the console to import, store and query data and its integration capabilities. Also, it covers architecture, key best practices and standards for high performance. Finally, it provides hands-on step by step exercise creating and using the BigQuery service. Chapter 4: Data Ingestion Using Pub/Sub and Dataflow – This chapter explains the various concepts involved in data ingestion while building a data processing pipeline. It introduces Pub/Sub service and Dataflow service and explains the details on how to configure these services for various scenarios/use case. It also explains in detail the concept of change data capture which is an important concept for real time stream processing. It explains the data stream service and how it can be configured for CDC and used in a Dataflow. Finally, the chapter provides hands-on exercise on creating an end to end data pipeline in Dataflow using Apache Beam. Chapter 5: ETL and Orchestration Using Cloud Composer – In this chapter, the reader is introduced on data pipeline orchestration and why it is an important consideration in setting up complex data pipelines. It then introduces Apache Airflow for orchestration and different ways to run Apache Airflow in GCP. Furthermore, it explains cloud composer service in GCP for running and scheduling Apache Airflow. Finally, it provides step by step guidance on creating a multi-step pipeline in GCP to achieve the desired outcomes. Chapter 6: Data Lakes Using Cloud Storage and Dataproc – Introduces the concept of data lake. It also compares data lakes and data warehouses and why they complement each other in an enterprise. It explains the various GCP services involved in data transmission, processing and storage. For data storage, it explains the details of the Cloud Storage and its configuration for storing the transferred data.It then introduces the Dataproc GCP service for the data processing. It explains how Apache Hadoop and Spark Clusters can be configured and spun for large scale processing of raw data. Finally, it goes through the best practices and how the costs can be managed and optimized in real-world implementations for data processing solutions. Chapter 7: Data Visualization Using BigQuery and Looker – Provides an overview of data visualization concepts and why it is important. It also explains the various options available in GCP for data visualization. The chapter then provides an overview of Looker studio and Looker as a tool for data visualization. It explains the difference between Looker studio and Looker and how the visualization reports and dashboards can be configured in these services. Further, it explains the best practices and strategies involved in exposing the data in BigQuery for visualization in Looker. Finally, it walks through the step by step process in creating a report with sample data in BigQuery. Chapter 8: Data Migration Using Database Migration Service – This chapter introduces the concept of data migration in the cloud and why having a robust database migration service in any cloud is very important. It then introduces the GCP database migration service which is used for migrating data from either on-premise or other cloud databases. It also provides detail of configuring database migration for common database services such as PostgreSQL, MySQL, Oracle, etc., to GCP cloud database services along with key best practices. The chapter also provides an overview of pricing for these services and various considerations when migrating data to the database in GCP. Chapter 9: Data Integration and Machine Learning Pipelines in GCP – This chapter introduces the various options available in GCP to connect to external systems and transfer data into GCP for further processing in GCP. It provides details on the BigQuery Data Transfer Service and the various configuration and capabilities available in this service to transfer data from on-premise, private cloud and other public Cloud Storage services. This chapter provides an overview of the Vertex AI platform in GCP. It also provides details on integrating data with this AI platform. Further, it provides how ML models can be prepared and used for training them. Finally, it provides a hands-on exercise on creating a ML pipeline for data preparation and training machine learning models. Chapter 10: Cloud Monitoring, DevOps Automation and Best Practices – Introduces the concepts of cloud logging and monitoring and why this is important for complex data pipelines. It provides information to the readers on the various GCP services involved in logging and monitoring such as cloud monitoring and how it can be configured for monitoring data pipelines in GCP. The chapter also introduces CI/CD automation and the GCP services available for configuring CI/CD pipelines for deployment automation. This chapter also talks about various cost optimization strategies and best practices to follow in general in data engineering in GCP. Finally it provides the data governance strategies and policies which are typically followed to ensure data security and data integrity. Chapter 11: Data Exchange and Sharing Using BigQuery Sharing – This chapter covers the approach and capabilities in GCP for sharing/exchanging data between organizations efficiently and securely. In this context, it provides an overview of the GCP BigQuery Sharing (earlier Analytics Hub) service and introduces the key features available in this service. It explains why this is critical in today’s connected world with multiple enterprises working closely together as partners and explains the configuration of this service. Finally, the chapter also covers the pricing and key best practices to be followed in configuring this service for the customers. Chapter 12: Emerging Trends and Real-world Use Cases – The last chapter covers the emerging and future trends and how generative AI can be used in data engineering. It provides some key use cases where generative AI can be used in data engineering. Also, it throws light on serverless data processing and event driven architectures and how this is gaining prominence in data engineering. This chapter also touches upon data mesh and decentralized data ownership and how it promotes greater autonomy, scalability and data democratization. Finally, the book concludes with several real world case studies and how enterprises around the world are implementing data engineering use case in GCP and benefitting from it.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Data Engineering with GCP





نظرات کاربران