- عنوان کتاب: Build a Text-to-Image Generator
- نویسنده: Mark Liu
- حوزه: پردازش تصویر
- سال انتشار: 2026
- تعداد صفحه: 394
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 6.88 مگابایت
این کتاب با کنجکاوی من در مورد اینکه چگونه ماشینها میتوانند از چیزی جز کلمات، تصاویر بسازند، آغاز میشود. وقتی برای اولین بار با DALL-E و Stable Diffusion مواجه شدم، نتایج جادویی به نظر میرسیدند: یک دستور تایپ کنید و تصویری واقعی بیرون آمد که کاملاً با توضیحات مطابقت داشت. اما در پشت این جادو، ریاضیات، کد و مجموعهای طولانی از ایدهها در یادگیری ماشین وجود داشت. میخواستم این ایدهها را نه فقط برای خودم، بلکه برای هر کسی که با ساختن چیزها از ابتدا بهترین یادگیری را دارد، رمزگشایی کنم. هوش مصنوعی مولد با سرعتی در حال پیشرفت است که تعداد کمی از ما میتوانستیم پیشبینی کنیم و نه تنها نحوه کار ما، بلکه نحوه ایجاد، طراحی و ارتباط ما را نیز تغییر شکل میدهد. مدلهای تبدیل متن به تصویر به طور خاص از جمله قابل مشاهدهترین و دگرگونکنندهترین این فناوریها هستند. آنها جهش از هوش مصنوعی تکوجهی به چندوجهی را تجسم میکنند، سیستمهایی که انواع مختلف دادهها را استدلال میکنند. در حالی که عناوین اصلی بر خروجیهای چشمگیر آنها متمرکز بودند، من به این سوال جذب شدم: آنها واقعاً چگونه کار میکنند؟ تصمیم گرفتم تنها پاسخ رضایتبخش این باشد که خودم یکی بسازم. این کتاب نتیجه آن سفر است. این کتاب مجموعهای از توضیحات سطح بالا یا نمایشهای جعبه سیاه نیست. در عوض، یک راهنمای عملی برای بازآفرینی بلوکهای سازنده اساسی تولید متن به تصویر است: مبدلها، مدلهای بینایی، فرآیندهای انتشار و بازنماییهای نهفته. با بازسازی این سیستمها به صورت جزئی، خوانندگانی مانند شما درک عمیقتری از قدرت و محدودیتهای آنها به دست میآورند. همانطور که ریچارد فاینمن زمانی گفته بود، “آنچه را که نمیتوانم خلق کنم، نمیفهمم.” این روحیه در هر فصل وجود دارد. نوشتن این کتاب همچنین از تمایل به ایجاد پل بین دو جامعه ناشی شده است: محققان یادگیری ماشین که مرز مدلهای مولد را پیش میبرند و توسعهدهندگان، طراحان و علاقهمندانی که مشتاق مهار این ابزارها هستند اما مطمئن نیستند از کجا شروع کنند. امید من این است که با کار کردن از طریق کد، آزمایشها و پروژهها، خواهید دید که این مدلها جعبههای سیاه غیرقابل نفوذ نیستند، بلکه سیستمهای قابل دسترسی هستند که از اجزای قابل فهم ساخته شدهاند. مثالهای این کتاب عمداً بازیگوشانه هستند (پانداهایی با کلاه سیلندری، موزهایی روی موتورسیکلت) زیرا خلاقیت باید شادیآور باشد. اما درسها ارزش زیادی دارند – از نمونهسازی سریع در طراحی و بازاریابی گرفته تا کمک به آموزش و توانمندسازی اشکال جدید بیان هنری. امیدوارم در پایان این کتاب، نه تنها نحوه عملکرد مدلهای تبدیل متن به تصویر را درک کنید، بلکه در گسترش، تطبیق و تصور کاربردهای جدید خودتان نیز احساس راحتی کنید.
This book begins with my curiosity about how machines could create images from nothing more than words. When I first encountered DALL-E and Stable Diffusion, the results seemed magical: type a prompt, and out came a lifelike image that matched the description perfectly. But behind the magic were mathematics, code, and a long line of ideas in machine learning. I wanted to demystify those ideas, not just for myself, but for anyone who learns best by building things from scratch. Generative AI is advancing at a pace few of us could have predicted, reshaping not only the way we work but also how we create, design, and communicate. Text-to- image models in particular are among the most visible and transformative of these technologies. They embody the leap from unimodal to multimodal AI, systems that reason across different types of data. While the headlines focused on their impressive outputs, I found myself drawn to this question: How do they really work? The only satisfying answer, I decided, was to build one myself. This book is the result of that journey. It’s not a collection of high-level explanations or black box demonstrations. Instead, it’s a hands-on guide to re-creating the fundamental building blocks of text-to-image generation: transformers, vision models, diffusion processes, and latent representations. By reconstructing these systems piece by piece, readers like you gain a deeper understanding of both their power and their limitations. As Richard Feynman once put it, “What I cannot create, I do not understand.” That spirit guides every chapter. Writing this book also came from a desire to bridge two communities: the machine learning researchers pushing the frontier of generative models and the developers, designers, and enthusiasts who are eager to harness these tools but uncertain where to begin. My hope is that by working through code, experiments, and projects, you’ll see that these models aren’t impenetrable black boxes, but accessible systems built from understandable components. The examples in this book are intentionally playful (pandas in top hats, bananas on motorcycles) because creativity should be joyful. But the lessons carry serious value— from rapid prototyping in design and marketing, to aiding education, to enabling new forms of artistic expression. By the end of this book, I hope you not only understand how text-to-image models function but also feel comfortable extending, adapting, and imagining new applications of your own.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: Build a Text-to-Image Generator

نظرات کاربران