- عنوان کتاب: AI-based Image and Video Coding Methods, Standards, and Applications
- نویسنده: Wei Gao
- حوزه: کدگذاری
- سال انتشار: 2025
- تعداد صفحه: 351
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 4.98 مگابایت
از حسگرهای تصویربرداری با وضوح بالا گرفته تا سیستمهای رسانهای فراگیر، تکامل سریع فناوریهای چندرسانهای، تقاضا برای فشردهسازی کارآمد دادههای بصری را برای مزایای ادراک انسان و ماشین تشدید کرده است. در حالی که چارچوبهای کدگذاری ترکیبی سنتی تصویر و ویدئو در طول سه دهه گذشته به عنوان سنگ بنای اصلی عمل کردهاند، بازده نهایی رو به کاهش آنها در راندمان فشردهسازی، اکنون با محدودیتهای اساسی در دستاوردهای کدگذاری قابل دستیابی و پیچیدگی محاسباتی مواجه است. این مقطع حساس، انگیزه بررسی ما از پتانسیل تحولآفرین یادگیری عمیق در تعریف مجدد الگوهای فشردهسازی است. این کتاب به طور سیستماتیک رویکردهای کدگذاری دادههای تصویر و ویدئو را که توسط فناوریهای هوش مصنوعی (AI) با رشد سریع هدایت میشوند، بررسی میکند و از طریق 12 فصل به هم پیوسته ساختار یافته است. منطق سازمانی از اصول بنیادی به چالشهای پیادهسازی پیشرفت میکند و به سه هدف اصلی پایبند است: (1) ایجاد پلهای نظری بین نظریه اطلاعات و روشهای فشردهسازی عصبی. (2) تجزیه و تحلیل نوآوریهای معماری که از مرزهای عملکرد کدکهای مرسوم فراتر میروند. (3) پرداختن به ملاحظات استقرار عملی در سیستمهای استانداردسازی و کاربردی. این کتاب نظریهها، روشها و کاربردهای کدگذاری تصویر و ویدئو مبتنی بر هوش مصنوعی را نشان میدهد. این کتاب دانش جامعی از کدگذاری تصویر و ویدئو با هوش مصنوعی، شامل اصول بنیادی، مدلسازی ادراک بصری انسان، روشهای کدگذاری مبتنی بر یادگیری عمیق، مسائل کدگذاری پیشرفته، استانداردهای فنی، پیادهسازیها و پروژههای متنباز و کارهای آینده، ارائه میدهد. فصلهای تفصیلی به شرح زیر سازماندهی شدهاند. فصلهای ۱ و ۲ با مقدمهای آغاز میشوند که پایه و اساس کتاب را تشکیل میدهد. به طور خاص، فصل ۱ مفاهیم اصلی کدگذاری تصویر و ویدئو را تشریح میکند و فصل ۲ تجزیه و تحلیل سیستماتیکی از چارچوب نظری یادگیری عمیق که بسیار مرتبط با این حوزه تحقیقاتی است، انجام میدهد. فصل ۳ اصول ارزیابی کیفیت و مدلسازی ادراکی را معرفی میکند که در ارزیابی عملکرد کدگذاری تصویر و ویدئو و هدایت بهینهسازی ادراکی در فرآیندهای کدگذاری ضروری هستند. فصلهای ۴ و ۵ به ترتیب به طور سیستماتیک به بررسی استفاده از شبکههای عصبی عمیق در کدگذاری تصویر و ویدئو میپردازند و روشهای استفاده از تکنیکهای ابداع شده برای بهبود کارایی کدگذاری را ارائه میدهند. فصلهای ۶ تا ۸ به بحث در مورد چندین مسئله کدگذاری پیشرفته میپردازند که به ترتیب بر کدگذاری سهبعدی و چندوجهی، کدگذاری مبتنی بر ادراک انسان و ماشین و حذف مصنوعات فشردهسازی تمرکز دارند. فصل ۹ تلاشهای اخیر در زمینه استانداردسازی در زمینه کدگذاری تصویر و ویدئو از سوی گروههای کاری سازمانهای مختلف، مانند IEEE، MPEG و JPEG، و همچنین تحلیل مقایسهای استانداردهای نوظهور را ارائه میدهد. فصل ۱۰ دانش پایه برای پیادهسازی تکنیکهای کدگذاری تصویر و ویدئو مبتنی بر هوش مصنوعی، از جمله بینشهایی در مورد ملاحظات سختافزاری و نرمافزاری را ارائه میدهد. فصل ۱۱ مروری بر پروژههای متنباز ارزشمند در زمینه کدگذاری تصویر و ویدئو ارائه میدهد. فصل ۱۲ به آینده نگاه میکند و مسیرهای بالقوه برای تحقیق و توسعه در فناوریهای کدگذاری تصویر و ویدئو مبتنی بر هوش مصنوعی را شرح میدهد. این فصلها کل کتاب را تشکیل میدهند، از جمله اصول اساسی و روشهای پیشرفته برای کدگذاری تصویر و ویدئو با کمک یادگیری عمیق. هدف ما این است که دانش و ابزارهای ضروری مورد نیاز خوانندگان را برای مشارکت در این زمینه پویا و در حال تکامل فراهم کنیم و همچنین انتقال از مدلهای فشردهسازی عصبی نظری به راهحلهای قابل استفاده در صنعت را تسریع بخشیم.
From high-resolution imaging sensors to immersive media systems, the rapid evolution of multimedia technologies has intensified the demands for efficient visual data compression for the benefits of human and machine perception. While traditional hybrid image and video coding frameworks have served as the cornerstone for the past over three decades, their diminishing marginal returns in compression efficiency now confront fundamental limitations in the achievable coding gains and the computational complexity. This critical juncture motivates our examination of the deep learning’s transformative potential in redefining compression paradigms. This book systematically investigates the image and video data coding approaches driven by the fast-growing artificial intelligence (AI) technologies, structured through 12 interconnected chapters. The organizational logic progresses from foundational principles to implementation challenges, adhering to three core objectives: (1) To establish theoretical bridges between information theory and neural compression methods. (2) To analyze architectural innovations surpassing the conventional codec performance boundaries. (3) To address practical deployment considerations in standardization and application systems. This book illustrate the theories, methods, and applications of AI-based image and video coding. It provides a comprehensive knowledge of image and video coding powered with AI, including fundamental principles, human visual perception modeling, deep learning-based coding methods, advanced coding problems, technical standards, implementations and open-source projects, and future works. The detailed chapters are organized as follows. Chapters 1 and 2 begin with an introduction that lays the foundation for the book. In particular, Chap. 1 outlines the core concepts of image and video coding, and Chap. 2 performs a systematic analysis of the deep learning theoretical framework highly relevant to this research field. Chapter 3 introduces the fundamentals of quality assessment and perceptual modeling, which are essential in evaluating the image and video coding performances, and guiding perceptual optimization in coding processes. Chapters 4 and 5 systematically investigate the utilization of deep neural networks in image and video coding, respectively, presenting the methodologies of using devised techniques to improve coding efficiency. Chapters 6–8 discuss several advanced coding problems, focusing on 3D and multimodal coding, human and machine perception oriented coding, and compression artifacts removal, respectively. Chapter 9 presents the recent standardization efforts on image and video coding from the working groups of different organizations, e.g., IEEE, MPEG, and JPEG, as well as the comparative analysis of emerging standards. Chapter 10 provides the basic knowledge for implementing AI-based image and video coding techniques, including insights into hardware and software considerations. Chapter 11 gives a review of valuable open source projects on image and video coding. Chapter 12 looks to the future, elaborating on potential directions for research and development in AI-based image and video coding technologies. These chapters constitute the whole book, including the fundamental principles and advanced methods for image and video coding with the aid of deep learning. We aim to provide readers with the indispensable knowledge and tools they need to contribute to this dynamic and evolving field, and also aim to accelerate the transition from the theoretical neural compression models to industrially deployable solutions.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: AI-based Image and Video Coding Methods, Standards, and Applications
نظرات کاربران