- عنوان کتاب: How Large Language Models Work
- نویسنده: Edward Raff, Drew Farris, Stella Biderman
- حوزه: مدل زبانی
- سال انتشار: 2025
- تعداد صفحه: 200
- زبان اصلی: انگلیسی
- نوع فایل: pdf
- حجم فایل: 2.22 مگابایت
اسکلت این کتاب در اواخر دهه ۲۰۱۰ میلادی شکل گرفت، زمانی که شاهد پیشرفتهای چشمگیری در حوزه هوش مصنوعی (AI) بودیم که میدانستیم به زودی میتواند به یک پیشرفت بزرگ منجر شود. همگرایی انواع جدید سختافزارهای کامپیوتری، در دسترس بودن حجم عظیمی از دادهها و رشد شبکههای عصبی به سرعت به نقطه اوجی رسیدند که اکنون الگوریتمهای یادگیری ماشینی میتوانستند ظرافتهای زبان و معنا را با دقت و در سطحی شگفتانگیز از دقت ثبت کنند. با ترکیب مناسب پیشرفتها، میدانستیم که این امر، امکان ایجاد یک کلاس کاملاً جدید از برنامهها را فراهم میکند. ما تحقیق انجام دادیم، نمونههای اولیه ساختیم، با همکاران، مشتریان و خانوادههایمان گفتگو کردیم و تلاش کردیم داستان چگونگی تغییر جهان توسط این پیشرفتها و تکنیکهای اساسی که این امر را ممکن ساختند، را روایت کنیم. سپس، در پایان نوامبر ۲۰۲۲، OpenAI ChatGPT را منتشر کرد و ناگهان، این پتانسیل به واقعیت تبدیل شد. با قرار دادن این فناوری در اختیار عموم، هر کسی میتوانست با تعامل با یک چتبات که توسط یک مدل زبان بزرگ (LLM) پشتیبانی میشود، تجربه دست اول کسب کند. مانند هر فناوری جدید، گمانهزنیهای زیادی در مورد آنچه که میتواند به ChatGPT اجازه دهد تا با وفاداری عالی تعامل داشته باشد و چنین خروجی با کیفیتی تولید کند، وجود داشت. ما دیدیم که بر اساس تعاملات با ChatGPT، مردم اغلب تصور میکردند که پشت پرده چیزی بیش از آنچه واقعاً وجود دارد، وجود دارد و گاهی اوقات معتقد بودند که ما واقعاً در آستانه هوش مصنوعی عمومی هستیم که میتواند هر کاری انجام دهد. ما دریافتیم که مکالمات ما به سمت آنچه که عملاً میتوان با استفاده از برنامههای LLM، مدیریت انتظارات، توصیف خطرات، اعتبارسنجی رفتارها و مذاکره در مورد مسیر بین آنچه واقعبینانه است و آنچه که تلاش برای آن ایمن یا مسئولانه نیست، به دست آورد، تغییر یافته است. به سرعت به سال 2025 میرسیم و اکنون کاملاً در دوران هوش مصنوعی مولد و عامل محور قرار داریم. ما شاهد گسترش گسترده مدلها، برنامهها و قابلیتها و انفجاری در انواع دادههایی هستیم که میتوانیم با آنها کار کنیم. هر فروشنده بزرگ، یک فناوری ارائه میدهد که شامل یک LLM است، چه چتباتهایی برای صحبت با آنها باشد یا عواملی که نوشتههای ما را بررسی میکنند، به ما در نوشتن برنامههای کامپیوتری کمک میکنند یا تصاویر تولید میکنند. بسیاری از این موارد بحثبرانگیز هستند و منجر به گفتگوهای جدیدی در مورد استفاده از دادهها میشوند و ما را وادار میکنند تا در مورد فرضیات خود در مورد رابطه بین فناوری و خلاقیت تجدید نظر کنیم. صرف نظر از این، اصول اساسی وجود دارد که این کاربردها را ممکن میسازد و هدف ما در این کتاب توصیف این اصول به روشی است که برای خوانندگان از هر قشری قابل فهم باشد. چه شما یک مدیرعامل، یک مهندس یادگیری ماشین، یک کدنویس معمولی یا فقط یک فرد عادی باشید که به دنبال استفاده از این فناوری است، امیدواریم در این کتاب چیزی مفید پیدا کنید که الگوریتمها و تکنیکهایی را که باعث میشوند LLMها کار کنند، توضیح میدهد. این کتاب مجموعهای از تجربیات ما در زمینه پردازش زبان طبیعی، یادگیری ماشین و تحقیقات الگوریتمی است که در آن قصد داریم دانش خود را به روشی که تقریباً برای همه قابل فهم است، به اشتراک بگذاریم. در طول مسیر، برخی از ابهامات را برطرف خواهیم کرد، محدودیتها را توضیح خواهیم داد و پیامدهای این فناوری جدید جذاب را بررسی خواهیم کرد. امیدواریم در این سفر به ما بپیوندید.
The skeleton of this book began to come together in the late 2010s when we saw several significant advancements in the field of artificial intelligence (AI) that we knew could soon lead to a breakthrough. The convergence of new types of computer hardware, the availability of vast amounts of data, and the growth of neural networks were rapidly converging to a tipping point where it was now possible for machine learning algorithms to accurately capture nuances of language and meaning at a surprising level of fidelity. With the right combination of breakthroughs, we knew this would enable an entirely new class of applications. We conducted research, built prototypes, had conversations with our colleagues, clients, and families, and sought to tell the story of how these advancements could change the world and the underlying techniques that made that possible. Then, at the end of November 2022, OpenAI released ChatGPT, and suddenly, this potential became a reality. By putting this technology into the hands of the public, anyone could gain firsthand experience by interacting with a chatbot powered by a large language model (LLM). As with any new technology, there was a lot of speculation as to what could possibly allow ChatGPT to interact with great fidelity and produce such high-quality output. We saw that, based on interactions with ChatGPT, people often assumed that there was more behind the curtain than truly existed, sometimes believing that we were truly on the cusp of general AI that could do anything. We found that our conversations shifted to what could practically be achieved using applications of LLMs, managing expectations, characterizing risks, validating behaviors, and negotiating the path between what’s realistic and what’s not safe or responsible to attempt. Fast forward to 2025, and we’re now firmly ensconced in the era of generative and agentic AI. We have seen a massive proliferation of models, applications, and capabilities and an explosion in the types of data we can work with. Each major vendor has a technology offering that incorporates an LLM, whether they are chatbots to talk to or agents that review our writing, help us write computer programs, or generate images. Many of these are controversial, leading to new conversations about data use and causing us to rethink our assumptions about the relationship between technology and creativity. Regardless, there are core principles that enable these applications, and our goal with this book is to describe these in a way that’s accessible to readers from all walks of life. Whether you’re a CEO, a machine learning engineer, a casual coder, or just the average person seeking to use this technology, we hope you’ll find something useful in this book that explains the algorithms and techniques that make LLMs work. It is a collection of our experiences working in the field of natural language processing, machine learning, and algorithmic research, where we set out to share our knowledge in a manner that is accessible to nearly everyone. Along the way, we will dispel some of the mystery, explain the limitations, and explore the implications of this fascinating new technology. We hope you’ll join us on this voyage.
این کتاب را میتوانید از لینک زیر بصورت رایگان دانلود کنید:
Download: How Large Language Models Work
نظرات کاربران