- عنوان مجله: UAV and Sensors Applications for Navigation and Positioning
- نویسنده: Yongbo Zhang, Yuhang Li
- حوزه: شبکه هوشمند
- سال انتشار: 2025
- تعداد صفحه: 256
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 11.6 مگابایت
در طیف گستردهای از زمینههای خدماتی مبتنی بر هوش مصنوعی (AI) مانند تعامل انسان و کامپیوتر [1]، کنترل ترافیک [2]، نظارت تصویری [3] و واقعیت افزوده [4]، فناوری ردیابی اشیا توجه مداومی را به خود جلب کرده است. ردیابی اشیا تا حد زیادی به ردیابی بدون تشخیص و ردیابی با تشخیص تقسیم میشود. مطالعات اخیر از روشهای ردیابی با تشخیص برای تحقق MOT (ردیابی چند شیء) استفاده کردهاند. با این حال، این روشی برای ردیابی اشیاء طبقهبندی شده از قبل و فرآیند آشکار کردن ارتباط بین نتایج تشخیص است. ردیابی بدون تشخیص، که به کاربران امکان میدهد هر شیء را از دیدگاه خود ردیابی کنند، میتواند فناوری مفیدتری برای کاربردهای امنیتی و مرتبط با ایمنی مانند پیشگیری از جرم و ایمنی تأسیسات باشد. VOT (ردیابی بصری اشیاء) نوعی ردیابی بدون تشخیص است که موقعیت شیء هدف تعریف شده توسط کاربر را در مجموعهای از فریمهای ویدیویی تخمین میزند. با انجام این کار، موقعیت تخمینی در هر فریم معمولاً توسط کادر محصور کننده شامل شیء هدفی که باید ردیابی شود، تعریف میشود. بدون از دست دادن کلیت، به منظور تضمین دقت استنتاج بهبود یافته، مدلهای DNN (شبکه عصبی عمیق) در حال بزرگتر و پیچیدهتر شدن هستند [5]. ردیابهایی با جدیدترین فناوریها نیز به مدلهای DNN مجهز شدهاند و پیچیدگی محاسباتی آنها نیز بسیار بالاست [6،7]. بنابراین، ردیابی دو یا چند شیء مشخص شده توسط کاربر در یک فریم ویدیویی از نظر محاسباتی حتی پیچیدهتر است و سیستم را بسیار کند میکند. روند اخیر فناوری VOT را میتوان به مطالعات مبتنی بر شبکه سیامی و مبتنی بر ترانسفورماتور تقسیم کرد. ساختار شبکه سیامی با محاسبه شباهت بین پچ هدف تعیین شده توسط کاربر و ناحیه جستجوی فریمهای ویدیویی، شیء هدف را ردیابی میکند [6]. ردیابهای مبتنی بر ترانسفورماتور با ترکیب ویژگیهای پچ هدف و ناحیه جستجوی فریمها با استفاده از مکانیسم توجه، ردیابی را انجام میدهند [7]. این دو نوع ردیاب ساختارهای بسیار متفاوتی دارند. بنابراین، استفاده از تکنیک بهینهسازی با همان روش برای جبران افت سرعت-عملکرد ناشی از ردیابی دو یا چند شیء، معنیدار نیست. به منظور به حداکثر رساندن سرعت اجرای DNN، شتابدهندههای سختافزاری متخصص در ماژولهای DNN خاص منتشر شدهاند [5]. با این حال، این شتابدهندههای تخصصی عملکرد خود را حتی در ساختار جدید DNN تضمین نمیکنند. بنابراین، دستگاهها و سرورهای لبه معمولاً از GPUها برای شتابدهی به ماژولهای DNN استفاده میکنند. ماژولهای DNN مورد استفاده در ردیابهای شیء نیز به کتابخانههای مخصوص GPU که توسط چارچوبهای یادگیری عمیق مانند TensorFlow [8] و PyTorch [9] استفاده میشوند، وابسته هستند و کتابخانهها برای انواع مختلف ساختارهای سختافزاری GPU بهینه نشدهاند. علاوه بر این، این چارچوبهای یادگیری عمیق، تکنیکهای بهینهسازی برای اجرای موازی دو یا چند ماژول DNN در GPU حتی زمانی که GPU در حال استفاده است را ارائه نمیدهند، که ممکن است منجر به عملکرد ردیاب به صورت غیربهینه شود. برای مقابله با مسائل فوق، ما یک رویکرد راهحل مبتنی بر نرمافزار پیشنهاد میکنیم که یک چارچوب زمانبندی کارآمد برای دو ردیاب شیء با عملکرد خوب که روی دستگاههای لبه و سیستمهای محاسباتی GPU-server اجرا میشوند، فراهم میکند. ما ابتدا زمینه را برای چارچوب زمانبندی پیشنهادی فراهم میکنیم تا بارهای کاری موجود در ردیاب را به واحدهای محاسباتی به طور بهینه نگاشت کند. برای این منظور، یک تحلیل ساختار محاسباتی عمیق بر روی SiamRPN++ که نمونهای از ردیابهای مبتنی بر شبکه Siamese است و CSWinTT که بهترین نمونه ردیابهای مبتنی بر ترانسفورماتور است، انجام میشود. به طور خاص، ما بیشترین توجه خود را به ساختار محاسباتی در مقیاس بزرگ MHA (توجه چند سر) که ردیابهای مبتنی بر ترانسفورماتور از دیدگاه ماژول DNN در آن مشترک هستند، معطوف میکنیم. دوم، چارچوب زمانبندی پیشنهادی، سرعت ردیابی دو یا چند ردیاب را هنگامی که با هم اجرا میشوند، بهبود میبخشد. این بدان معناست که عملکرد ردیابی هنگامی که دو یا چند شیء به طور همزمان و بدون تشخیص ردیابی میشوند، بهبود مییابد. چارچوب زمانبندی پیشنهادی، یک فناوری شتابدهی در سطح سیستم است که برای مستقل بودن از ساختارهای مختلف GPUها طراحی شده است. علاوه بر این، رویکرد پیشنهادی در این مطالعه میتواند برای شتابدهندههای سختافزاری غیر از GPUها نیز اعمال شود. این امر تنها با یک کتابخانه ارائه شده توسط سازنده شتابدهنده امکانپذیر است.
In a wide range of AI (artificial intelligence)-enabled service fields such as human–computer interaction [1], traffic control [2], video surveillance [3], and augmented reality [4], object-tracking technology has drawn constant attention. Object tracking is largely divided into detection-free tracking and tracking-by-detection. Recent studies have used tracking-by-detection methodologies to realize MOT (multi-object tracking). However, this is a method of tracking classified objects in advance and the process of revealing the association between the detection results. Detection-free tracking, which allows users to track any object from the user point of view, can be a more useful technology for security and safety-related applications such as crime prevention and facility safety. VOT (visual object tracking) is a kind of detection-free tracking, which estimates the position of the user-defined target object in a series of video frames. In doing so, the estimated position in each frame is usually defined by the bounding box including the target object to be tracked. Without loss of generality, in order to secure the improved inference accuracy, DNN (deep neural network) models are getting bigger and more complicated [5]. Trackers with the latest technologies are also equipped with DNN models, and the computational complexity is also very high [6,7]. Therefore, tracking two or more user-specified objects in a video frame is even more computationally complex and makes the system very slow. The recent trend of VOT technology can be divided into Siamese-network-based and transformer-based studies. Siamese network structure tracks target object by computing the similarity between the target patch designated by the user and the search region of the video frames [6]. Transformer-based trackers conduct tracking by fusing the features of the target patch and search region of the frames using attention mechanism [7]. These two kinds of trackers have very different structures. Therefore, using the optimization technique of the same method is not meaningful to make up for the speed-performance deterioration incurred when tracking two or more objects. In order to maximize the execution speed of DNN, hardware accelerators specialized in specific DNN modules have been released [5]. However, these specialized accelerators do not guarantee their performance even in the new DNN structure. Therefore, edge devices and servers usually use GPUs to accelerate DNN modules. The DNN modules used in object trackers are also dependent on the GPU-specific libraries used by deep learning frameworks such as TensorFlow [8] and PyTorch [9], and the libraries are not optimized for various kinds of GPU hardware structures. Furthermore, these deep learning frameworks do not provide optimization techniques for two or more DNN modules to run parallel in the GPU even when the GPU is experiencing under utilization, which may lead the tracker performance to be suboptimal. To tackle the above-mentioned issues, we propose a software-based solution approach, which provides an efficient scheduling framework for the two well-performing object trackers running on edge devices and GPU-server computing systems. We first lay the groundwork for the proposed scheduling framework to optimally map workloads included in the tracker to computing units. To this end, an in-depth computational structure analysis is conducted on SiamRPN++, which epitomizes Siamese-network-based trackers, and CSWinTT, which best exemplifies transformer-based trackers. Particularly, we give most of our attention to the large-scale computational structure of MHA (multi-head attention), which transformer-based trackers have in common, from the DNN module perspective. Second, the proposed scheduling framework improves the tracking speed of two or more trackers when they are running together. This means that the tracking performance is improved when two or more objects are simultaneously tracked in a detection-free manner. The proposed scheduling framework is a system-level acceleration technology designed to be independent of the different structures of GPUs. Additionally, the approach proposed in this study can be applied to hardware accelerators other than GPUs. This is possible with only a library provided by the accelerator manufacturer.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: UAV and Sensors Applications for Navigation and Positioning
نظرات کاربران