0

دانلود کتاب مدل‌های زبان بینایی

بازدید 100
  • عنوان کتاب: Vision Language Models
  • نویسنده: Merve Noyan, Miquel Farré, Andrés Marafioti
  • حوزه: بینایی کامپیوتر
  • سال انتشار: 2026
  • تعداد صفحه: 553
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 8.95 مگابایت

امروزه، می‌توانید در یک موزه گوشی خود را بیرون بیاورید، از یک نقاشی عکس بگیرید و از یک مدل در مورد تأثیراتی که هنرمند بر روی آن نقاشی کشیده و آنچه که اثر سعی در انتقال آن دارد، بپرسید. همین مدل می‌تواند ویدیوهای موجود در گوشی شما را تماشا کند و خلاصه‌های سریعی را برای کمک به شما در یافتن آنها در آینده ارائه دهد. مدل‌های زبان بینایی (VLM) با اتصال ادراک بصری و زبان، همه این‌ها را ممکن می‌سازند. آنها به سرعت از نمونه‌های اولیه تحقیقاتی به محصولات واقعی که مردم هر روز از آنها استفاده می‌کنند، تبدیل شده‌اند. اما ساختن چیزهای جدید با این مدل‌ها سخت‌تر از آن چیزی است که تجربه کاربری نشان می‌دهد. این حوزه به سرعت در حال پیشرفت است، مقالات جدید روزانه منتشر می‌شوند و راهنمایی‌های عملی در پست‌های وبلاگ، اسناد کتابخانه‌ای و دانش غیررسمی که در رویدادهای شبکه‌سازی رد و بدل می‌شود، پراکنده است. اگر می‌خواهید از یک VLM استفاده کنید، آموزش دهید یا آن را تنظیم کنید، مشخص نیست که چگونه معماری مناسب را انتخاب کنید، چگونه مجموعه داده‌های خود را گردآوری کنید یا چگونه به طور موثر مستقر شوید. در نهایت خودتان دانش را کنار هم قرار می‌دهید. این کتاب تلاش ما برای تغییر این وضعیت است. این کتابی است که آرزو داشتیم وقتی کار چندوجهی از یک کنجکاوی تحقیقاتی به یک مشکل مهندسی تبدیل شد، داشته باشیم. ما این کتاب را به عنوان تیمی نوشتیم که سال‌ها صرف ساخت، مستندسازی و عرضه سیستم‌های چندوجهی متن‌باز در Hugging Face کرده است. ما در مجموع VLMهایی مانند SmolVLM را آموزش داده و منتشر کرده‌ایم، ده‌ها مدل چندوجهی را در اکوسیستم متن‌باز ادغام کرده‌ایم، ابزارها و نسخه‌های نمایشی ساخته‌ایم که این مدل‌ها را برای متخصصان قابل دسترس می‌کند و به‌طور گسترده در مورد ایده‌های پشت آنها نوشته‌ایم. این تجربه، کتاب را شکل داده است: ما با کد و مثال‌های عینی پیش می‌رویم و از نظریه برای توضیح اینکه چرا چیزها کار می‌کنند (یا نمی‌کنند) استفاده می‌کنیم، نه برای تأثیرگذاری. این کتاب یک مسیر آگاهانه را دنبال می‌کند. نیمه اول شما را از مبانی تا آموزش یک VLM از ابتدا، گردآوری داده‌های دنیای واقعی، پس‌آموزش، معماری‌های اصلی و استقرار در مقیاس بزرگ همراهی می‌کند. نیمه دوم به حوزه‌های تخصصی می‌پردازد: هوش مصنوعی مستند، مدل‌های زبان ویدیویی، سیستم‌های any-to-any و VLMهای عامل که از درک غیرفعال به تصمیم‌گیری و عمل حرکت می‌کنند.

Today, you can take your phone out in a museum, snap a picture of a painting, and ask a model about the influences the artist drew on and what the piece might be trying to convey. The same model can watch the videos on your phone and give you quick summaries to help you find them later. Vision language models (VLMs) make all of this possible by connecting visual perception and language. They have moved quickly from research prototypes to real products that people use every day. But building new things with these models is harder than the user experience suggests. The field moves fast, new articles come out daily, and practical guidance is scattered across blog posts, library docs, and informal knowledge passed around at networking events. If you want to use, train, or fine-tune a VLM, it is not obvious how to choose the right architecture, how to curate your datasets, or how to deploy efficiently. You end up piecing the knowledge together yourself. This book is our attempt to change that. It is the book we wished we had when multimodal work stopped being a research curiosity and became an engineering problem. We wrote it as a team that has spent years building, documenting, and shipping open source multimodal systems at Hugging Face. Between us we have trained and released VLMs like SmolVLM, integrated dozens of multimodal models into the open source ecosystem, built tooling and demos that make these models accessible to practitioners, and written extensively about the ideas behind them. That experience shaped the book: we lead with code and concrete examples, and we use theory to explain why things work (or don’t) rather than to impress. The book follows a deliberate arc. The first half takes you from foundations through training a VLM from scratch, real-world data curation, posttraining, core architectures, and deployment at scale. The second half moves into specialized domains: document AI, video-language models, any-to-any systems, and agentic VLMs that move from passive understanding into decision making and action.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: Vision Language Models

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

X