مجله علمی تفریحی بیبیس
0

دانلود کتاب پردازش زبان طبیعی برای CORPUS LINGUISTICS

بازدید 905
  • عنوان کتاب: NATURAL LANGUAGE PROCESSING FOR CORPUS LINGUISTICS
  • نویسنده: Jonathan Dunn
  • حوزه: پردازش زبان طبیعی
  • سال انتشار: 2022
  • تعداد صفحه: 96
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 5.15 مگابایت

زبان شناسی مجموعه وارد عصر طلایی شده است که هم به دلیل مقدار و هم دامنه زبانی است که اکنون برای تحلیل زبانی در دسترس است. داده های بدنه می توانند استفاده از جمعیت را در مقیاس نشان دهند و محدودیت هایی را که درون نگری را در دهه 1950 بسیار مهم کرده بودند را دور بزنند. اما این دسترسی گسترده به داده های زبان ایجاب می کند که زبان شناسان روش های موجود برای تجزیه و تحلیل آن را داشته باشند. و در حالی که پیشرفت‌های زیادی در پردازش زبان طبیعی و زبان‌شناسی محاسباتی وجود داشته است، این پیشرفت‌ها به طور فزاینده‌ای با زبان‌شناسی پیکره و نظریه زبان‌شناسی قطع شده‌اند. این عنصر پردازش زبان طبیعی و زبانشناسی پیکره را با هم می آورد و نشان می دهد که چگونه می توان از مدل های محاسباتی برای پاسخگویی به مسائل طبقه بندی و مقایسه استفاده کرد. این مدل‌های محاسباتی با استفاده از پنج مطالعه موردی ارائه می‌شوند که در بخش بعدی معرفی خواهند شد، از تحلیل نحوی تا تحلیل ثبتی تا زبان‌شناسی اجتماعی مبتنی بر پیکره. هدف در اینجا نشان دادن چگونگی استفاده از این مدل‌های محاسباتی است، به چه سؤالات زبان‌شناختی می‌توانند پاسخ دهند، و چرا مهم است که زبان‌شناسی پیکره‌ای را به این روش مقیاس‌بندی کنیم. یک زبان شناس می تواند از این عنصر برای یادگیری نحوه استفاده از پردازش زبان طبیعی برای پاسخ به سؤالات زبانی که قبلاً با آنها آشنا هستند استفاده کند. و یک دانشمند کامپیوتر می تواند از این عنصر برای یادگیری در مورد مفروضات زبانی و محدودیت های پشت روش های محاسباتی استفاده کند، مواردی که اغلب در پردازش زبان طبیعی نادیده گرفته می شوند. یک مشکل طبقه بندی مربوط به اختصاص یک برچسب از پیش تعریف شده به برخی از زبان ها است. در سطح کلمه، این می تواند شامل پرسیدن اینکه آیا یک کلمه کلاس باز خاص یک اسم است یا یک فعل. در سطح جمله، این می تواند این باشد که بپرسیم یک جمله خاص چه نوع ساختاری را نشان می دهد. در سطح سند، این می تواند این سوال باشد که آیا یک گوینده خاص نماینده انگلیسی نیوزلند است یا انگلیسی استرالیایی. همه این سوالات را می توان با استفاده از طبقه بندی متن پاسخ داد. این یک نوع یادگیری ماشینی نظارت شده است که در آن ما به عنوان زبانشناس مقوله هایی را که به آنها علاقه مندیم تعریف می کنیم. یک مشکل مقایسه ای در مورد اندازه گیری رابطه بین دو مشاهده است. در سطح کلمه، این می تواند این سوال باشد که آیا دو اسم مانند گربه و سگ به یک حوزه معنایی تعلق دارند یا خیر. در سطح جملات، این می تواند این سوال باشد که آیا دو توییت احساسات مشابهی دارند یا خیر. در سطح سند، این می تواند این سوال باشد که آیا دو مقاله نمونه هایی از یک سبک مشابه هستند یا خیر. این سوالات را می توان با استفاده از مدل شباهت متنی مورد بررسی قرار داد. این یک نوع یادگیری ماشینی بدون نظارت است که در آن ما به عنوان زبان شناس فقط نمایش های مورد استفاده را کنترل می کنیم، نه مجموعه ای از برچسب های مورد استفاده برای حاشیه نویسی.

Corpus linguistics has entered a golden age, driven by both the amount and the range of language that is now available for linguistic analysis. Corpus data is able to represent a population’s usage at scale, bypassing the limitations which made introspection so important in the 1950s. But this wide availability of language data requires that linguists have the methods available to analyze it. And while there has been a surge of advances in natural language processing and computational linguistics, these advances have become increasingly disconnected from corpus linguistics and linguistic theory. This Element brings natural language processing and corpus linguistics together, showing how computational models can be used to answer both categorization and comparison problems. These computational models are presented using five case studies that will be introduced in the next section, ranging from syntactic analysis to register analysis to corpus-based sociolinguistics. The goal here is to show how to use these computational models, what linguistic questions they can answer, and why it is important to scale up corpus linguistics in this way. A linguist can use this Element to learn how to use natural language processing to answer linguistic questions they are already familiar with. And a computer scientist can use this Element to learn about the linguistic assumptions and limitations behind computational methods, matters that are too often disregarded within natural language processing itself. A categorization problem is about assigning a predefined label to some piece of language. At the word level, this could involve asking whether a particular open-class word is a noun or a verb. At the sentence level, this could be asking what kind of construction a particular sentence represents. At the document level, this could be asking whether a particular speaker represents New Zealand English or Australian English. All of these questions can be answered using a text classifier. This is a type of supervised machine learning in which we as linguists define the categories that we are interested in. A comparison problem is about measuring the relationship between two observations. At the word level, this could be asking whether two nouns like cat and dog belong to the same semantic domain. At the sentence level, this could be asking whether two tweets have a similar sentiment. At the document level, this could be asking whether two articles are examples of a similar style. These questions can be approached using a text similarity model. This is a type of unsupervised machine learning in which we as linguists only control the representations being used, not the set of labels used for annotation.

این کتاب را میتوانید بصورت رایگان از لینک زیر دانلود نمایید.

Download: NATURAL LANGUAGE PROCESSING FOR CORPUS LINGUISTICS

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.