- عنوان کتاب: Utilization of Occluded Detections and Target Information in Multi-Person Tracking
- نویسنده: Daniel Stadler
- حوزه: ردیابی
- سال انتشار: 2026
- تعداد صفحه: 294
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 3.34 مگابایت
ردیابی چند نفره یک کار اساسی در بینایی کامپیوتر با کاربردهای مختلف مانند نظارت، رانندگی خودکار و تجزیه و تحلیل ورزشی است. هدف، مکانیابی و شناسایی همه افراد در هر فریم از یک دنباله ویدیویی است. این امر امکان ردیابی افراد در مناطق حساس از نظر ایمنی، پیشبینی حرکت عابران پیاده در ترافیک جادهای یا محاسبه آمار دویدن در بازیهای فوتبال را فراهم میکند. اکثر روشها از الگوی ردیابی مبتنی بر تشخیص پیروی میکنند که مسئله ردیابی را به دو زیروظیف تشخیص و ارتباط تقسیم میکند. برای تشخیصهای تولید شده، نشانههای حرکت و ظاهر معمولاً برای حل وظیفه ارتباط اتصال تشخیصها از اهداف یکسان به مسیرها استخراج میشوند. این پایاننامه نشان میدهد که رویکردهای ردیابی موجود از ادبیات، از این اطلاعات موجود به شیوهای ناکافی بهرهبرداری میکنند. در نتیجه، یک چارچوب ردیابی جدید معرفی میشود که هم استفاده از تشخیصهای موجود و هم مکانیسم ادغام اطلاعات حرکت و ظاهر در ارتباط را بهبود میبخشد. اکثر خطاهای ردیابی در جمعیت رخ میدهند، جایی که تشخیصهای از دست رفته به دلیل انسداد، وظیفه ارتباط را پیچیده میکند. برای بهبود عملکرد در چنین شرایطی، یک سرکوب غیرحداکثری تطبیقیافته پیشنهاد شده است که امکان گنجاندن تشخیصهای تحت انسداد شدید در فرآیند ارتباط را فراهم میکند که توسط رویکردهای ردیابی قبلی کنار گذاشته شده بودند. دو تکنیک مختلف برای بهرهبرداری از مجموعه اضافی تشخیصهای با انسداد شدید پیشنهاد شده است. اولین تکنیک، این موارد را در مرحله ارتباط دوم ادغام میکند، جایی که آنها با مسیرهای اختصاص داده نشده باقی مانده از مرحله اول تطبیق داده میشوند. رویکرد دوم از اطلاعات مسیر موجود برای شناسایی خوشههای مسیر با تشخیصهای از دست رفته استفاده میکند و تشخیصهای با انسداد شدید را در این مناطق به صورت محلی ادغام میکند. هر دو تکنیک نه تنها یادآوری تشخیص را تحت انسداد شدید افزایش میدهند، بلکه با کاهش تعداد تشخیصهای از دست رفته و در نتیجه حذف ابهامات در انتساب تشخیصها به مسیرها، کار ارتباط را نیز ساده میکنند. در کنار استفاده از تشخیصها، نحوه استفاده از اطلاعات موجود در مورد ظاهر و حرکت اهداف نقش کلیدی در دقت ارتباط ایفا میکند. در این پایاننامه، مکانیسمهای ادغام موجود برای اطلاعات حرکت و ظاهر در یک چارچوب پایه مشترک ارزیابی میشوند و برای اولین بار امکان مقایسه کامل و منصفانه را فراهم میکنند و نقاط ضعف رویکردهای غالب شرح داده میشوند. بر این اساس، معیارهای ترکیبی جدیدی برای استفاده بهتر از اطلاعات حرکت و ظاهر در این ارتباط معرفی شدهاند که به طور قابل توجهی از انواع قبلی بهتر عمل میکنند. برای جلوگیری از شروع مسیرهای شبح مانند از تشخیصهای تکراری در مناطق شلوغ، یک استراتژی اولیهسازی آگاه از انسداد پیشنهاد شده است. این استراتژی، دانش مربوط به همسایگی تشخیصهای اختصاص داده نشده را از اطلاعات مسیر موجود استخراج میکند تا موارد تکراری را شناسایی و حذف کند. علاوه بر این، یک مدل سبک برای جبران حرکت بالقوه دوربین ارائه شده است که برای کاربردهایی با دوربینهای غیر ایستا از اهمیت بالایی برخوردار است. ماژولهای پیشنهادی در یک چارچوب جدید ترکیب شدهاند که از معیارهای ردیابی چند نفره پیشرفته پیشی میگیرد. این دستاورد عمدتاً به دلیل استفاده بهتر از اطلاعات موجود در فرآیند ردیابی است، زیرا از مدلهای یکسانی برای تشخیص و همچنین استخراج اطلاعات ظاهر و حرکت مانند ردیابهای رقیب استفاده میشود. علاوه بر این، چندین بهینهسازی برای تسریع چارچوب ردیابی چند نفره پیچیده از نظر محاسباتی انجام شده است، از جمله استفاده از یک مدل کارآمد برای استخراج اطلاعات ظاهری، استفاده از یک کتابخانه با کارایی بالا برای استنتاج شبکه عصبی و موازیسازی. بدون افت قابل توجه عملکرد، سیستم حاصل به صورت بلادرنگ اجرا میشود و در عین حال قادر به ردیابی همزمان صدها هدف است. این در حالی است که این سیستم شامل تمام اجزای مهم مانند مدل ظاهری یا جبران حرکت دوربین است که در بسیاری از روشهای موجود در مقالات علمی برای دستیابی به زمان اجرای کم استفاده نمیشوند.
Multi-person tracking is a fundamental task in computer vision with various applications such as surveillance, autonomous driving, and sports analysis. The goal is to localize and identify all persons in each frame of a video sequence. This allows to track persons in safety-critical areas, predict the movement of pedestrians in road traffic, or calculate running statistics at soccer games. The majority of methods follows the tracking-by-detection paradigm dividing the tracking problem into the two subtasks detection and association. For the generated detections, motion and appearance cues are typically extracted to solve the association task of joining detections from the same targets to tracks. This thesis shows that existing tracking approaches from the literature exploit this available information in an insufficient way. Consequently, a novel tracking framework is introduced that improves both the utilization of available detections as well as the fusion mechanism of motion and appearance information in the association. Most tracking errors occur in crowds, where missed detections due to occlusion complicate the association task. To improve the performance in such situations, an adapted non-maximum suppression is proposed, which allows to include detections under severe occlusion in the association process that were discarded by previous tracking approaches. Two different techniques are suggested to leverage the additional set of heavily-occluded detections. The first one integrates these in a second association stage, where they are matched to the remaining unassigned tracks from the first stage. The second approach utilizes the available track information to identify track clusters with missing detections and incorporates the heavily-occluded detections in these areas locally. Both techniques not only enhance detection recall under strong occlusion but also simplify the association task by reducing the number of missing detections and thus eliminating ambiguities in the assignment of detections to tracks. Next to the usage of detections, the way of leveraging the available information on appearance and motion of targets plays a key role for the association accuracy. In this thesis, existing fusion mechanisms for motion and appearance information are evaluated within a common base framework, allowing a thorough and fair comparison for the first time, and weaknesses of the prevailing approaches are elaborated. Building on this, novel combined distance measures for a better utilization of motion and appearance information in the association are introduced that significantly outperform previous variants. To prevent the start of ghost tracks from duplicate detections in crowded areas, an occlusion-aware initialization strategy is suggested. It derives knowledge about the neighborhood of unassigned detections from the available track information to identify and discard duplicates. Moreover, a lightweight model for compensating potential camera motion is presented, which is of great importance for applications with non-static cameras. The proposed modules are combined into a novel framework that surpasses the state of the art in established multi-person tracking benchmarks. This achievement is mainly due to a better use of available information in the tracking process, since the same models are adopted for detection as well as extraction of appearance and motion information as in the competing trackers. Additionally, several optimizations are made to accelerate the computationally complex multi-person tracking framework, including the application of an efficient model for extracting appearance information, the use of a high performance library for neural network inference, and parallelization. Without a significant loss of performance, the resulting system runs in real time while being capable of tracking hundreds of targets simultaneously. This is despite the fact that it includes all important components like appearance model or camera motion compensation, which are not used by many methods from the literature in order to achieve a low runtime.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Utilization of Occluded Detections and Target Information in Multi-Person Tracking





نظرات کاربران