مجله علمی تفریحی بیبیس
0

دانلود کتاب کاربردهای پهپاد و حسگرها برای ناوبری و موقعیت‌یابی

  • عنوان مجله: UAV and Sensors Applications for Navigation and Positioning
  • نویسنده: Yongbo Zhang, Yuhang Li
  • حوزه: شبکه هوشمند
  • سال انتشار: 2025
  • تعداد صفحه: 256
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 11.6 مگابایت

در طیف گسترده‌ای از زمینه‌های خدماتی مبتنی بر هوش مصنوعی (AI) مانند تعامل انسان و کامپیوتر [1]، کنترل ترافیک [2]، نظارت تصویری [3] و واقعیت افزوده [4]، فناوری ردیابی اشیا توجه مداومی را به خود جلب کرده است. ردیابی اشیا تا حد زیادی به ردیابی بدون تشخیص و ردیابی با تشخیص تقسیم می‌شود. مطالعات اخیر از روش‌های ردیابی با تشخیص برای تحقق MOT (ردیابی چند شیء) استفاده کرده‌اند. با این حال، این روشی برای ردیابی اشیاء طبقه‌بندی شده از قبل و فرآیند آشکار کردن ارتباط بین نتایج تشخیص است. ردیابی بدون تشخیص، که به کاربران امکان می‌دهد هر شیء را از دیدگاه خود ردیابی کنند، می‌تواند فناوری مفیدتری برای کاربردهای امنیتی و مرتبط با ایمنی مانند پیشگیری از جرم و ایمنی تأسیسات باشد. VOT (ردیابی بصری اشیاء) نوعی ردیابی بدون تشخیص است که موقعیت شیء هدف تعریف شده توسط کاربر را در مجموعه‌ای از فریم‌های ویدیویی تخمین می‌زند. با انجام این کار، موقعیت تخمینی در هر فریم معمولاً توسط کادر محصور کننده شامل شیء هدفی که باید ردیابی شود، تعریف می‌شود. بدون از دست دادن کلیت، به منظور تضمین دقت استنتاج بهبود یافته، مدل‌های DNN (شبکه عصبی عمیق) در حال بزرگتر و پیچیده‌تر شدن هستند [5]. ردیاب‌هایی با جدیدترین فناوری‌ها نیز به مدل‌های DNN مجهز شده‌اند و پیچیدگی محاسباتی آنها نیز بسیار بالاست [6،7]. بنابراین، ردیابی دو یا چند شیء مشخص شده توسط کاربر در یک فریم ویدیویی از نظر محاسباتی حتی پیچیده‌تر است و سیستم را بسیار کند می‌کند. روند اخیر فناوری VOT را می‌توان به مطالعات مبتنی بر شبکه سیامی و مبتنی بر ترانسفورماتور تقسیم کرد. ساختار شبکه سیامی با محاسبه شباهت بین پچ هدف تعیین شده توسط کاربر و ناحیه جستجوی فریم‌های ویدیویی، شیء هدف را ردیابی می‌کند [6]. ردیاب‌های مبتنی بر ترانسفورماتور با ترکیب ویژگی‌های پچ هدف و ناحیه جستجوی فریم‌ها با استفاده از مکانیسم توجه، ردیابی را انجام می‌دهند [7]. این دو نوع ردیاب ساختارهای بسیار متفاوتی دارند. بنابراین، استفاده از تکنیک بهینه‌سازی با همان روش برای جبران افت سرعت-عملکرد ناشی از ردیابی دو یا چند شیء، معنی‌دار نیست. به منظور به حداکثر رساندن سرعت اجرای DNN، شتاب‌دهنده‌های سخت‌افزاری متخصص در ماژول‌های DNN خاص منتشر شده‌اند [5]. با این حال، این شتاب‌دهنده‌های تخصصی عملکرد خود را حتی در ساختار جدید DNN تضمین نمی‌کنند. بنابراین، دستگاه‌ها و سرورهای لبه معمولاً از GPUها برای شتاب‌دهی به ماژول‌های DNN استفاده می‌کنند. ماژول‌های DNN مورد استفاده در ردیاب‌های شیء نیز به کتابخانه‌های مخصوص GPU که توسط چارچوب‌های یادگیری عمیق مانند TensorFlow [8] و PyTorch [9] استفاده می‌شوند، وابسته هستند و کتابخانه‌ها برای انواع مختلف ساختارهای سخت‌افزاری GPU بهینه نشده‌اند. علاوه بر این، این چارچوب‌های یادگیری عمیق، تکنیک‌های بهینه‌سازی برای اجرای موازی دو یا چند ماژول DNN در GPU حتی زمانی که GPU در حال استفاده است را ارائه نمی‌دهند، که ممکن است منجر به عملکرد ردیاب به صورت غیربهینه شود. برای مقابله با مسائل فوق، ما یک رویکرد راه‌حل مبتنی بر نرم‌افزار پیشنهاد می‌کنیم که یک چارچوب زمان‌بندی کارآمد برای دو ردیاب شیء با عملکرد خوب که روی دستگاه‌های لبه و سیستم‌های محاسباتی GPU-server اجرا می‌شوند، فراهم می‌کند. ما ابتدا زمینه را برای چارچوب زمان‌بندی پیشنهادی فراهم می‌کنیم تا بارهای کاری موجود در ردیاب را به واحدهای محاسباتی به طور بهینه نگاشت کند. برای این منظور، یک تحلیل ساختار محاسباتی عمیق بر روی SiamRPN++ که نمونه‌ای از ردیاب‌های مبتنی بر شبکه Siamese است و CSWinTT که بهترین نمونه ردیاب‌های مبتنی بر ترانسفورماتور است، انجام می‌شود. به طور خاص، ما بیشترین توجه خود را به ساختار محاسباتی در مقیاس بزرگ MHA (توجه چند سر) که ردیاب‌های مبتنی بر ترانسفورماتور از دیدگاه ماژول DNN در آن مشترک هستند، معطوف می‌کنیم. دوم، چارچوب زمان‌بندی پیشنهادی، سرعت ردیابی دو یا چند ردیاب را هنگامی که با هم اجرا می‌شوند، بهبود می‌بخشد. این بدان معناست که عملکرد ردیابی هنگامی که دو یا چند شیء به طور همزمان و بدون تشخیص ردیابی می‌شوند، بهبود می‌یابد. چارچوب زمان‌بندی پیشنهادی، یک فناوری شتاب‌دهی در سطح سیستم است که برای مستقل بودن از ساختارهای مختلف GPUها طراحی شده است. علاوه بر این، رویکرد پیشنهادی در این مطالعه می‌تواند برای شتاب‌دهنده‌های سخت‌افزاری غیر از GPUها نیز اعمال شود. این امر تنها با یک کتابخانه ارائه شده توسط سازنده شتاب‌دهنده امکان‌پذیر است.

In a wide range of AI (artificial intelligence)-enabled service fields such as human–computer interaction [1], traffic control [2], video surveillance [3], and augmented reality [4], object-tracking technology has drawn constant attention. Object tracking is largely divided into detection-free tracking and tracking-by-detection. Recent studies have used tracking-by-detection methodologies to realize MOT (multi-object tracking). However, this is a method of tracking classified objects in advance and the process of revealing the association between the detection results. Detection-free tracking, which allows users to track any object from the user point of view, can be a more useful technology for security and safety-related applications such as crime prevention and facility safety. VOT (visual object tracking) is a kind of detection-free tracking, which estimates the position of the user-defined target object in a series of video frames. In doing so, the estimated position in each frame is usually defined by the bounding box including the target object to be tracked. Without loss of generality, in order to secure the improved inference accuracy, DNN (deep neural network) models are getting bigger and more complicated [5]. Trackers with the latest technologies are also equipped with DNN models, and the computational complexity is also very high [6,7]. Therefore, tracking two or more user-specified objects in a video frame is even more computationally complex and makes the system very slow. The recent trend of VOT technology can be divided into Siamese-network-based and transformer-based studies. Siamese network structure tracks target object by computing the similarity between the target patch designated by the user and the search region of the video frames [6]. Transformer-based trackers conduct tracking by fusing the features of the target patch and search region of the frames using attention mechanism [7]. These two kinds of trackers have very different structures. Therefore, using the optimization technique of the same method is not meaningful to make up for the speed-performance deterioration incurred when tracking two or more objects. In order to maximize the execution speed of DNN, hardware accelerators specialized in specific DNN modules have been released [5]. However, these specialized accelerators do not guarantee their performance even in the new DNN structure. Therefore, edge devices and servers usually use GPUs to accelerate DNN modules. The DNN modules used in object trackers are also dependent on the GPU-specific libraries used by deep learning frameworks such as TensorFlow [8] and PyTorch [9], and the libraries are not optimized for various kinds of GPU hardware structures. Furthermore, these deep learning frameworks do not provide optimization techniques for two or more DNN modules to run parallel in the GPU even when the GPU is experiencing under utilization, which may lead the tracker performance to be suboptimal. To tackle the above-mentioned issues, we propose a software-based solution approach, which provides an efficient scheduling framework for the two well-performing object trackers running on edge devices and GPU-server computing systems. We first lay the groundwork for the proposed scheduling framework to optimally map workloads included in the tracker to computing units. To this end, an in-depth computational structure analysis is conducted on SiamRPN++, which epitomizes Siamese-network-based trackers, and CSWinTT, which best exemplifies transformer-based trackers. Particularly, we give most of our attention to the large-scale computational structure of MHA (multi-head attention), which transformer-based trackers have in common, from the DNN module perspective. Second, the proposed scheduling framework improves the tracking speed of two or more trackers when they are running together. This means that the tracking performance is improved when two or more objects are simultaneously tracked in a detection-free manner. The proposed scheduling framework is a system-level acceleration technology designed to be independent of the different structures of GPUs. Additionally, the approach proposed in this study can be applied to hardware accelerators other than GPUs. This is possible with only a library provided by the accelerator manufacturer.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: UAV and Sensors Applications for Navigation and Positioning

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بیشتر بخوانید

X
آموزش نقاشی سیاه قلم کانال ایتا