- عنوان کتاب: Robotic Vision /Fundamental Algorithms in MATLAB
- نویسنده: Peter Corke
- حوزه: رباتیک
- سال انتشار: 2022
- تعداد صفحه: 419
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 31.1 مگابایت
تصاویر دیجیتال همه جا هستند – بیشتر ما مجموعه ای از هزاران عکس دیجیتالی داریم که در دستگاه های مختلف گرفته شده است. هر تصویر سرشار از اطلاعات در مورد صحنه ای است که ضبط کرده است – در هر پیکسل اطلاعاتی در مورد ساختار سه بعدی صحنه، مواد تشکیل دهنده آن و شرایط نور در آن زمان وجود دارد. در زندگی روزمره ما از حس بینایی خود برای کمک به انجام کارهای مختلف استفاده می کنیم: شناخت افراد، خواندن متن، دستکاری اشیا و پیمایش. برخی از مهارتهای بصری ساده اکنون میتوانند توسط ماشینها انجام شوند، برای مثال، دوربینها میتوانند بفهمند که ما لبخند میزنیم، پلتفرمهای رسانههای اجتماعی و موانع گمرکی میتوانند چهرههای فردی را تشخیص دهند. و ما می توانیم آلبوم های عکس آنلاین خود را با استفاده از کلمات کلیدی متن جستجو کنیم. ربات ها اگر می خواهند پتانسیل خود را به عنوان ماشین های مفید و همه جا در زندگی روزمره ما برآورده کنند، به تسلط بر مهارت های بصری نیاز دارند. ربات ها ماشین های داده محور هستند – آنها داده ها را بدست می آورند، آنها را پردازش می کنند و بر اساس آن اقدام می کنند. داده ها از بسیاری از سنسورها از جمله دوربین ها به دست می آیند. یک تصویر شامل میلیونها پیکسل است و حجم دادهای که باید در زمان واقعی پردازش شود، بسیار زیاد است. پیشرفت چشم انداز روباتیک توسط روش های موثرتری برای پردازش این داده ها هدایت می شود و همچنان ادامه دارد. این امر از طریق الگوریتمهای جدید و کارآمدتر و همچنین افزایش چشمگیر قدرت محاسباتی که از قانون مور پیروی میکند به دست آمده است. زمانی که در اواسط دهه 1980 در زمینه رباتیک و بینایی شروع کردم، به شکل 0.1 مراجعه کنید، رایانه شخصی IBM اخیراً ساخته شده بود. منتشر شد – دارای یک ریزپردازنده 16 بیتی 4.77 مگاهرتز و 16 کیلوبایت (قابل ارتقا تا 256 کیلو) حافظه بود. طی بیش از 30 سال گذشته، قدرت محاسباتی احتمالاً 20 برابر شده است که افزایشی بیش از یک میلیون نفر است. در 5 سال گذشته، واحدهای پردازش گرافیکی یا GPUها به میدان آمدند و موج جدیدی از الگوریتمهای مبتنی بر دادهها به ویژه یادگیری عمیق را تقویت کردند. در طول تاریخ نسبتاً جدید بینایی رباتیک، الگوریتمهای بسیار بزرگی برای حل مؤثر مسائل در مقیاس بزرگ در درک صحنه، تخمین حرکت و بازسازی سه بعدی توسعه داده شده است – یک دستاورد مهم، ملموس و جمعی برای جامعه تحقیقاتی. . با این حال، اندازه و پیچیدگی بسیار آن مانعی بسیار واقعی برای ورود افراد تازه وارد به این عرصه می کند. با توجه به الگوریتم های زیادی که می توان از بین آنها انتخاب کرد، یک سوال واقعی و مهم این است: الگوریتم مناسب برای مشکل خاص من چیست؟ یک استراتژی می تواند این باشد که چند الگوریتم مختلف را امتحان کنید و ببینید کدام یک برای مشکل مورد نظر بهترین کارایی دارد، اما این بی اهمیت نیست و به سوال بعدی منتهی می شود: چگونه می توانم الگوریتم X را روی داده های خودم ارزیابی کنم بدون اینکه روزها برای کدنویسی و اشکال زدایی آن وقت بگذارم. از مقالات پژوهشی اصلی؟
Digital images are everywhere – most of us have collections of thousands of digital images captured on a variety of devices. Each image is rich in information about the scene it recorded – implicit in every pixel is information about the 3D structure of the scene, the materials which comprise it and the lighting conditions at the time. In our everyday life we use our sense of vision to help us perform a huge variety of tasks: recognizing people, reading text, manipulating objects and navigating. Some simple visual skills can now be performed by machines, for example, cameras can tell if we’re smiling, social media platforms and customs barriers can recognize individual faces; and we can search our online photo albums using text keywords. Robots need mastery of visual skills if they are to meet their potential as helpful and ubiquitous machines in our everyday lives. Robots are data-driven machines – they acquire data, process it and take action based on it. The data comes from many sensors including cameras. An image comprises millions of pixels and the amount of data that needs to be processed, in realtime, is massive. Progress robotic vision has been, and continues to be, driven by more effective ways to process that data. This has been achieved through new and more effi cient algorithms, as well as the dramatic increase in computational power that follows Moore’s law.⊳ When I started in robotics and vision in the mid 1980s, see Fig. 0.1, the IBM PC had been recently released – it had a 4.77 MHz 16-bit microprocessor and 16 kbytes (expandable to 256 k) of memory. Over the intervening 30+ years computing power has perhaps doubled 20 times which is an increase by a factor of over one million. In the last 5 years, graphical processing units, or GPUs, have come to the fore and powered a new wave of data-driven algorithms most notably deep learning⊳. Over the fairly recent history of robotic vision a very large body of algorithms has been developed to effi ciently solve large-scale problems in scene understanding⊳, motion estimation, and 3D reconstruction – a signifi cant, tangible, and collective achievement of the research community. However its sheer size and complexity presents a very real barrier to somebody new entering the fi eld. Given so many algorithms from which to choose, a real and important question is: What is the right algorithm for my particular problem? One strategy would be to try a few different algorithms and see which works best for the problem at hand, but this is not trivial and leads to the next question: How can I evaluate algorithm X on my own data without spending days coding and debugging it from the original research papers?
این کتاب را میتوانید بصورت رایگان از لینک زیر دانلود نمایید.
نظرات کاربران