دانلود کتاب نحوه کار مدل‌های زبانی بزرگ

8 ماه پیش

عنوان کتاب: How Large Language Models Work
نویسنده: Edward Raff, Drew Farris, Stella Biderman
حوزه: مدل زبانی
سال انتشار: 2025
تعداد صفحه: 200
زبان اصلی: انگلیسی
نوع فایل: pdf
حجم فایل: 2.22 مگابایت

اسکلت این کتاب در اواخر دهه ۲۰۱۰ میلادی شکل گرفت، زمانی که شاهد پیشرفت‌های چشمگیری در حوزه هوش مصنوعی (AI) بودیم که می‌دانستیم به زودی می‌تواند به یک پیشرفت بزرگ منجر شود. همگرایی انواع جدید سخت‌افزارهای کامپیوتری، در دسترس بودن حجم عظیمی از داده‌ها و رشد شبکه‌های عصبی به سرعت به نقطه اوجی رسیدند که اکنون الگوریتم‌های یادگیری ماشینی می‌توانستند ظرافت‌های زبان و معنا را با دقت و در سطحی شگفت‌انگیز از دقت ثبت کنند. با ترکیب مناسب پیشرفت‌ها، می‌دانستیم که این امر، امکان ایجاد یک کلاس کاملاً جدید از برنامه‌ها را فراهم می‌کند. ما تحقیق انجام دادیم، نمونه‌های اولیه ساختیم، با همکاران، مشتریان و خانواده‌هایمان گفتگو کردیم و تلاش کردیم داستان چگونگی تغییر جهان توسط این پیشرفت‌ها و تکنیک‌های اساسی که این امر را ممکن ساختند، را روایت کنیم. سپس، در پایان نوامبر ۲۰۲۲، OpenAI ChatGPT را منتشر کرد و ناگهان، این پتانسیل به واقعیت تبدیل شد. با قرار دادن این فناوری در اختیار عموم، هر کسی می‌توانست با تعامل با یک چت‌بات که توسط یک مدل زبان بزرگ (LLM) پشتیبانی می‌شود، تجربه دست اول کسب کند. مانند هر فناوری جدید، گمانه‌زنی‌های زیادی در مورد آنچه که می‌تواند به ChatGPT اجازه دهد تا با وفاداری عالی تعامل داشته باشد و چنین خروجی با کیفیتی تولید کند، وجود داشت. ما دیدیم که بر اساس تعاملات با ChatGPT، مردم اغلب تصور می‌کردند که پشت پرده چیزی بیش از آنچه واقعاً وجود دارد، وجود دارد و گاهی اوقات معتقد بودند که ما واقعاً در آستانه هوش مصنوعی عمومی هستیم که می‌تواند هر کاری انجام دهد. ما دریافتیم که مکالمات ما به سمت آنچه که عملاً می‌توان با استفاده از برنامه‌های LLM، مدیریت انتظارات، توصیف خطرات، اعتبارسنجی رفتارها و مذاکره در مورد مسیر بین آنچه واقع‌بینانه است و آنچه که تلاش برای آن ایمن یا مسئولانه نیست، به دست آورد، تغییر یافته است. به سرعت به سال 2025 می‌رسیم و اکنون کاملاً در دوران هوش مصنوعی مولد و عامل محور قرار داریم. ما شاهد گسترش گسترده مدل‌ها، برنامه‌ها و قابلیت‌ها و انفجاری در انواع داده‌هایی هستیم که می‌توانیم با آنها کار کنیم. هر فروشنده بزرگ، یک فناوری ارائه می‌دهد که شامل یک LLM است، چه چت‌بات‌هایی برای صحبت با آنها باشد یا عواملی که نوشته‌های ما را بررسی می‌کنند، به ما در نوشتن برنامه‌های کامپیوتری کمک می‌کنند یا تصاویر تولید می‌کنند. بسیاری از این موارد بحث‌برانگیز هستند و منجر به گفتگوهای جدیدی در مورد استفاده از داده‌ها می‌شوند و ما را وادار می‌کنند تا در مورد فرضیات خود در مورد رابطه بین فناوری و خلاقیت تجدید نظر کنیم. صرف نظر از این، اصول اساسی وجود دارد که این کاربردها را ممکن می‌سازد و هدف ما در این کتاب توصیف این اصول به روشی است که برای خوانندگان از هر قشری قابل فهم باشد. چه شما یک مدیرعامل، یک مهندس یادگیری ماشین، یک کدنویس معمولی یا فقط یک فرد عادی باشید که به دنبال استفاده از این فناوری است، امیدواریم در این کتاب چیزی مفید پیدا کنید که الگوریتم‌ها و تکنیک‌هایی را که باعث می‌شوند LLMها کار کنند، توضیح می‌دهد. این کتاب مجموعه‌ای از تجربیات ما در زمینه پردازش زبان طبیعی، یادگیری ماشین و تحقیقات الگوریتمی است که در آن قصد داریم دانش خود را به روشی که تقریباً برای همه قابل فهم است، به اشتراک بگذاریم. در طول مسیر، برخی از ابهامات را برطرف خواهیم کرد، محدودیت‌ها را توضیح خواهیم داد و پیامدهای این فناوری جدید جذاب را بررسی خواهیم کرد. امیدواریم در این سفر به ما بپیوندید.

The skeleton of this book began to come together in the late 2010s when we saw several significant advancements in the field of artificial intelligence (AI) that we knew could soon lead to a breakthrough. The convergence of new types of computer hardware, the availability of vast amounts of data, and the growth of neural networks were rapidly converging to a tipping point where it was now possible for machine learning algorithms to accurately capture nuances of language and meaning at a surprising level of fidelity. With the right combination of breakthroughs, we knew this would enable an entirely new class of applications. We conducted research, built prototypes, had conversations with our colleagues, clients, and families, and sought to tell the story of how these advancements could change the world and the underlying techniques that made that possible. Then, at the end of November 2022, OpenAI released ChatGPT, and suddenly, this potential became a reality. By putting this technology into the hands of the public, anyone could gain firsthand experience by interacting with a chatbot powered by a large language model (LLM). As with any new technology, there was a lot of speculation as to what could possibly allow ChatGPT to interact with great fidelity and produce such high-quality output. We saw that, based on interactions with ChatGPT, people often assumed that there was more behind the curtain than truly existed, sometimes believing that we were truly on the cusp of general AI that could do anything. We found that our conversations shifted to what could practically be achieved using applications of LLMs, managing expectations, characterizing risks, validating behaviors, and negotiating the path between what’s realistic and what’s not safe or responsible to attempt. Fast forward to 2025, and we’re now firmly ensconced in the era of generative and agentic AI. We have seen a massive proliferation of models, applications, and capabilities and an explosion in the types of data we can work with. Each major vendor has a technology offering that incorporates an LLM, whether they are chatbots to talk to or agents that review our writing, help us write computer programs, or generate images. Many of these are controversial, leading to new conversations about data use and causing us to rethink our assumptions about the relationship between technology and creativity. Regardless, there are core principles that enable these applications, and our goal with this book is to describe these in a way that’s accessible to readers from all walks of life. Whether you’re a CEO, a machine learning engineer, a casual coder, or just the average person seeking to use this technology, we hope you’ll find something useful in this book that explains the algorithms and techniques that make LLMs work. It is a collection of our experiences working in the field of natural language processing, machine learning, and algorithmic research, where we set out to share our knowledge in a manner that is accessible to nearly everyone. Along the way, we will dispel some of the mystery, explain the limitations, and explore the implications of this fascinating new technology. We hope you’ll join us on this voyage.

این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:

Download: How Large Language Models Work

پست های اخیر

دانلود کتاب نحوه کار مدل‌های زبانی بزرگ

نظرات کاربران

دیدگاهتان را بنویسید لغو پاسخ

مطالب تصادفی ماه گذشته

بیشتر بخوانید

آهنگ خارجی

کتب علمی

رمان انگلیسی

کتب عمومی

پست های اخیر

دانلود کتاب نحوه کار مدل‌های زبانی بزرگ

مشاهده بیشتر

نظرات کاربران

دیدگاهتان را بنویسید لغو پاسخ

مطالب تصادفی ماه گذشته

بیشتر بخوانید

آهنگ خارجی

کتب علمی

رمان انگلیسی

کتب عمومی