- عنوان کتاب: Vision Language Models
- نویسنده: Merve Noyan, Miquel Farré, Andrés Marafioti
- حوزه: بینایی کامپیوتر
- سال انتشار: 2026
- تعداد صفحه: 553
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 8.95 مگابایت
امروزه، میتوانید در یک موزه گوشی خود را بیرون بیاورید، از یک نقاشی عکس بگیرید و از یک مدل در مورد تأثیراتی که هنرمند بر روی آن نقاشی کشیده و آنچه که اثر سعی در انتقال آن دارد، بپرسید. همین مدل میتواند ویدیوهای موجود در گوشی شما را تماشا کند و خلاصههای سریعی را برای کمک به شما در یافتن آنها در آینده ارائه دهد. مدلهای زبان بینایی (VLM) با اتصال ادراک بصری و زبان، همه اینها را ممکن میسازند. آنها به سرعت از نمونههای اولیه تحقیقاتی به محصولات واقعی که مردم هر روز از آنها استفاده میکنند، تبدیل شدهاند. اما ساختن چیزهای جدید با این مدلها سختتر از آن چیزی است که تجربه کاربری نشان میدهد. این حوزه به سرعت در حال پیشرفت است، مقالات جدید روزانه منتشر میشوند و راهنماییهای عملی در پستهای وبلاگ، اسناد کتابخانهای و دانش غیررسمی که در رویدادهای شبکهسازی رد و بدل میشود، پراکنده است. اگر میخواهید از یک VLM استفاده کنید، آموزش دهید یا آن را تنظیم کنید، مشخص نیست که چگونه معماری مناسب را انتخاب کنید، چگونه مجموعه دادههای خود را گردآوری کنید یا چگونه به طور موثر مستقر شوید. در نهایت خودتان دانش را کنار هم قرار میدهید. این کتاب تلاش ما برای تغییر این وضعیت است. این کتابی است که آرزو داشتیم وقتی کار چندوجهی از یک کنجکاوی تحقیقاتی به یک مشکل مهندسی تبدیل شد، داشته باشیم. ما این کتاب را به عنوان تیمی نوشتیم که سالها صرف ساخت، مستندسازی و عرضه سیستمهای چندوجهی متنباز در Hugging Face کرده است. ما در مجموع VLMهایی مانند SmolVLM را آموزش داده و منتشر کردهایم، دهها مدل چندوجهی را در اکوسیستم متنباز ادغام کردهایم، ابزارها و نسخههای نمایشی ساختهایم که این مدلها را برای متخصصان قابل دسترس میکند و بهطور گسترده در مورد ایدههای پشت آنها نوشتهایم. این تجربه، کتاب را شکل داده است: ما با کد و مثالهای عینی پیش میرویم و از نظریه برای توضیح اینکه چرا چیزها کار میکنند (یا نمیکنند) استفاده میکنیم، نه برای تأثیرگذاری. این کتاب یک مسیر آگاهانه را دنبال میکند. نیمه اول شما را از مبانی تا آموزش یک VLM از ابتدا، گردآوری دادههای دنیای واقعی، پسآموزش، معماریهای اصلی و استقرار در مقیاس بزرگ همراهی میکند. نیمه دوم به حوزههای تخصصی میپردازد: هوش مصنوعی مستند، مدلهای زبان ویدیویی، سیستمهای any-to-any و VLMهای عامل که از درک غیرفعال به تصمیمگیری و عمل حرکت میکنند.
Today, you can take your phone out in a museum, snap a picture of a painting, and ask a model about the influences the artist drew on and what the piece might be trying to convey. The same model can watch the videos on your phone and give you quick summaries to help you find them later. Vision language models (VLMs) make all of this possible by connecting visual perception and language. They have moved quickly from research prototypes to real products that people use every day. But building new things with these models is harder than the user experience suggests. The field moves fast, new articles come out daily, and practical guidance is scattered across blog posts, library docs, and informal knowledge passed around at networking events. If you want to use, train, or fine-tune a VLM, it is not obvious how to choose the right architecture, how to curate your datasets, or how to deploy efficiently. You end up piecing the knowledge together yourself. This book is our attempt to change that. It is the book we wished we had when multimodal work stopped being a research curiosity and became an engineering problem. We wrote it as a team that has spent years building, documenting, and shipping open source multimodal systems at Hugging Face. Between us we have trained and released VLMs like SmolVLM, integrated dozens of multimodal models into the open source ecosystem, built tooling and demos that make these models accessible to practitioners, and written extensively about the ideas behind them. That experience shaped the book: we lead with code and concrete examples, and we use theory to explain why things work (or don’t) rather than to impress. The book follows a deliberate arc. The first half takes you from foundations through training a VLM from scratch, real-world data curation, posttraining, core architectures, and deployment at scale. The second half moves into specialized domains: document AI, video-language models, any-to-any systems, and agentic VLMs that move from passive understanding into decision making and action.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Vision Language Models





نظرات کاربران