- عنوان کتاب: Building ETL Pipelines with Python
- نویسنده: Brij Kishore Pandey
- حوزه: برنامه نویسی پایتون
- سال انتشار: 2023
- تعداد صفحه: 388
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 8.88 مگابایت
ما در عصری زندگی میکنیم که حجم دادههای تولید شده بهسرعت از عملی بودن آن در حالت پردازش نشدهاش بیشتر میشود. برای به دست آوردن بینش ارزشمند از این داده ها، باید به اطلاعات قابل هضم تبدیل شوند. هیچ کمبودی در راههای سریع و آسان برای انجام این کار با استفاده از ابزارهای مجاز متعدد موجود در بازار برای ایجاد محیطهای انتقال داده «plug-and-play» وجود ندارد. با این حال، داده های مورد نیاز پروژه های سطح صنعت اغلب از قابلیت های ابزارها و فناوری های موجود فراتر می رود. این به این دلیل است که ظرفیت پردازش مورد نیاز برای پردازش مقادیر زیادی از داده ها به طور تصاعدی افزایش می یابد و هزینه پردازش نیز به طور تصاعدی افزایش می یابد. در نتیجه، پردازش داده های مورد نیاز پروژه های سطح صنعت با استفاده از روش های سنتی می تواند بسیار گران باشد. این تقاضای فزاینده برای پردازش دادههای بسیار قابل تنظیم با قیمت مناسب، همراه با تقاضای رو به رشد برای مهندسین داده ماهر است. مهندسان داده استخراج، تبدیل و بارگذاری داده ها را انجام می دهند که معمولاً به فرآیند استخراج، تبدیل و بارگذاری (ETL) گفته می شود. گردشهای کاری ETL که به عنوان خطوط لوله ETL نیز شناخته میشود، مهندسان داده را قادر میسازد تا راهحلهای سفارشیسازیشدهای ایجاد کنند که نه تنها استراتژیک هستند، بلکه توسعهدهندگان را قادر میسازند تا محیطهای استقرار انعطافپذیری را ایجاد کنند که بسته به نوسانات مورد نیاز دادهای که بین اجرای خط لوله رخ میدهد، میتواند افزایش یا کاهش یابد.
We’re living in an era where the volume of generated data is rapidly outgrowing its practicality in its unprocessed state. In order to gain valuable insights from this data, it needs to be transformed into digestible pieces of information. There is no shortage of quick and easy ways to accomplish this using numerous licensed tools on the market to create “plug-and-play” data ingestion environments. However, the data requirements of industry-level projects often exceed the capabilities of existing tools and technologies. This is because the processing capacity needed to handle large amounts of data increases exponentially, and the cost of processing also increases exponentially. As a result, it can be prohibitively expensive to process the data requirements of industry-level projects using traditional methods. This growing demand for highly customizable data processing at a reasonable price point goes hand in hand with a growing demand for skilled data engineers. Data engineers handle the extraction, transformation, and loading of data, which is commonly referred to as the Extract, Transform, and Load (ETL) process. ETL workflows, also known as ETL pipelines, enable data engineers to create customized solutions that are not only strategic but also enable developers to create flexible deployment environments that can scale up or down depending on any data requirement fluctuations that occur between pipeline runs.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Building ETL Pipelines with Python
نظرات کاربران