- عنوان کتاب: Neural Networks with Model Compression
- نویسنده: Baochang Zhang, Tiancheng Wang, Sheng Xu
- حوزه: شبکه عصبی
- سال انتشار: 2024
- تعداد صفحه: 267
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 6.37 مگابایت
با توسعه سریع فناوری اطلاعات، محاسبات ابری با پردازش متمرکز دادهها نمیتواند نیازهای برنامههایی را که نیاز به پردازش حجم عظیمی از دادهها دارند، برآورده کند و تنها زمانی میتوان از آنها به طور مؤثر استفاده کرد که حریم خصوصی مستلزم آن باشد که دادهها در دستگاه جلویی باقی بمانند. بنابراین، محاسبات لبهای برای مدیریت دادهها از دستگاههای تعبیهشده ضروری شده است. دستگاههای لبه هوشمند، بسیاری از الزامات سیستمهای هوایی بدون سرنشین بلادرنگ، سیستمهای صنعتی و برنامههای حفظ حریم خصوصی را برآورده میکنند. در سالهای اخیر، یادگیری عمیق در کاربردهای مختلف به کار گرفته شده و بسیاری از وظایف هوش مصنوعی (AI) را به طرز چشمگیری بهبود بخشیده است. با این حال، دقت بینظیر مدلهای یادگیری عمیق با پرداخت هزینه مصرف زیاد حافظه و پیچیدگی محاسباتی بالا حاصل میشود، که به طور قابل توجهی مانع از استقرار آنها در دستگاههای لبهای با منابع حافظه کم میشود. برای مثال، شبکه VGG-16 میتواند در وظایف طبقهبندی تصویر با مجموعه داده ImageNet به دقت ۹۲.۷٪ در بین ۵ شبکه برتر دست یابد. با این حال، کل شبکه حاوی حدود ۱۴۰ میلیون پارامتر ممیز شناور ۳۲ بیتی است که به بیش از ۵۰۰ مگابایت فضای ذخیرهسازی نیاز دارد و عملیات ممیز شناوری معادل ۰.۱.۶ × ۱۰۱۰ انجام میدهد. با این حال، دستگاههای تعبیهشده مبتنی بر FPGA معمولاً تنها چند هزار واحد محاسباتی دارند که نمیتوانند میلیونها عملیات ممیز شناور را در مدلهای استاندارد شبکه عصبی عمیق مدیریت کنند. از سوی دیگر، شبکههای عصبی پیچیده اغلب با سرعت محاسباتی پایینتر و زمان استنتاج طولانیتر همراه هستند که در کاربردهایی با الزامات تأخیر دقیق، مانند تشخیص و ردیابی خودرو، مجاز نیستند. بنابراین، یک ایده طبیعی این است که فشردهسازی و شتابدهی مدل را در شبکههای عصبی بدون کاهش قابل توجه عملکرد مدل انجام دهیم. این کتاب پیشرفتهای قابل توجه شبکههای عصبی با فشردهسازی مدل را معرفی میکند. اگرچه عملیات کوانتیزه میتوانند کارایی شبکههای عصبی را افزایش دهند، اما معمولاً منجر به کاهش عملکرد میشوند. در ۵ سال گذشته، روشهای زیادی برای بهبود عملکرد شبکههای عصبی کوانتومی معرفی شدهاند. برای بررسی بهتر این روشها، ما بر شش جنبه تمرکز میکنیم: تقریب گرادیان، کوانتیزاسیون، طراحی سازه، طراحی تلفات، بهینهسازی و جستجوی معماری عصبی. همچنین کاربردهای شبکههای عصبی با فشردهسازی مدل در تحلیل بصری و صوتی را بررسی میکنیم. همچنین تکنیکهای فشردهسازی مدل دیگری، مانند فشردهسازی مدل با هرس شبکه، وجود دارند که به طور گسترده در محاسبات لبهای مورد استفاده قرار میگیرند، که ما برای تکمیل این کتاب آنها را معرفی میکنیم. از مطالعات قبلی ما، هرس شبکه و شبکههای عصبی کوانتیزه میتوانند به طور همزمان برای تکمیل یکدیگر استفاده شوند، در حالی که هرس شبکه روی شبکههای عصبی کوانتیزه میتواند مدلها را فشردهتر کرده و قابلیت تعمیم را برای بسیاری از کاربردهای پاییندستی بهبود بخشد.
With the swift development of information technology, cloud computing with centralized data processing cannot meet the needs of applications that require processing massive amounts of data, and they can only be effectively used when privacy requires the data to remain at the front-end device. Thus, edge computing has become necessary to handle the data from embedded devices. Intelligent edge devices benefit many requirements within real-time unmanned aerial systems, industrial systems, and privacy-preserving applications. In recent years, deep learning has been applied to different applications, dramatically improving many artificial intelligence (AI) tasks. However, the incomparable accuracy of deep learning models is achieved by paying the cost of hungry memory consumption and high computational complexity, which significantly impedes their deployment in edge devices with low memory resources. For example, the VGG- 16 network can achieve 92.7% top-5 test accuracy on image classification tasks with the ImageNet dataset. Still, the entire network contains about 140 million 32- bit floating-point parameters, requiring more than 500 megabytes of storage space and performing .1.6 × 1010 floating-point operations. Yet, FPGA-based embedded devices typically have only a few thousand compute units, which cannot handle the millions of floating-point operations in standard deep neural network models. On the other hand, complex neural networks are often accompanied by slower computing speed and longer inference time, which are not allowed in applications with strict latency requirements, such as vehicle detection and tracking. Therefore, a natural thought is to perform model compression and acceleration in neural networks without significantly decreasing the model performance. This book introduces the significant advancements of neural networks with model compression. While quantized operations can enhance the efficiency of neural networks, they typically result in a decrease in performance. In the last 5 years, many methods have been introduced to improve the performance of quantized neural networks. To better review these methods, we focus on six aspects: gradient approximation, quantization, structural design, loss design, optimization, and neural architecture search. We also review the applications of neural networks with model compression in visual and audio analysis. There are also other model compression techniques, such as model compression with network pruning, widely used in edge computing, which we introduce for completeness in this book. From our previous studies, network pruning and quantized neural networks can be used simultaneously to complement each other, whereas network pruning on quantized neural networks can further compress models and improve the generalization ability for many downstream applications.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Neural Networks with Model Compression
نظرات کاربران