OpenAI به مدلهای هوش مصنوعی آموزش میدهد که وقتی دچار توهم میشوند «اعتراف» کنند – این در واقع به چه معناست:

OpenAI می خواهد که نسل بعدی مدل های هوش مصنوعی خطاهای خود را با وضوح بیشتری آشکار کند. با توجه به اینکه ChatGPT در حدود 25 درصد مواقع نادرست است، به نظر می رسد که این ویژگی مدت هاست دیر شده است. اما شرکت آنها را برای آگاهی بیشتر آموزش نمی دهد. آنها را آموزش می دهد تا اشکالات را مستقیماً گزارش کنند.
این هفته، OpenAI تحقیق جدیدی را در مورد تکنیکی که آن را “اعتراف” می نامد منتشر کرد. این روشی است که یک کانال خروجی دوم را به یک مدل اضافه می کند، جایی که به طور خاص آموزش داده می شود تا توضیح دهد که آیا از قوانین پیروی می کند، کجا کوتاهی کرده یا ممکن است توهم داشته باشد، و با چه عدم قطعیت هایی در طول کار مواجه شده است.
اما موضوع اینجاست. این یک ویژگی ChatGPT هنوز در دسترس کاربران نیست. در عوض، این یک ابزار امنیتی اثبات مفهوم است که برای کمک به محققان برای شناسایی اشکالات ظریفی طراحی شده است که معمولاً به سختی قابل مشاهده هستند. با توجه به نتایج اولیه مشخص شده در این تحقیق، این در واقع می تواند کارساز باشد.
«اعترافات» دقیقاً چیست؟
اعترافات معادل هوش مصنوعی پشیمانی نیستند. اینها یک رفتار آموزش دیده هستند که با دادن وظیفه دوم به مدل ایجاد می شوند. مدل طبق معمول با ایجاد یک پاسخ شروع می شود. با این حال، سپس یک “گزارش اعتراف” تولید می کند که ارزیابی می کند:
- دقت در پیروی از هر دستورالعمل
- ذکر میانبرهای گرفته شده یا اینکه آیا آنها “پاداش هک شده” ماموریت را انجام می دهند
- برجسته کردن جزئیات توهم یا فرضیات غیر موجه
- نشان دادن عدم قطعیت یا ابهام در مورد نحوه رعایت
مهمتر از همه، این اعتراف صرفاً بر این اساس قضاوت میشود که آیا روایتی صادقانه از اتفاقات رخ داده است، نه اینکه مدل را «خوب به نظر میرسد».
این بدان معناست که یک مدل برای اعتراف به اشتباه خود پاداش می گیرد و برای آشکار کردن نقص در خروجی خود مجازات نمی شود. این ساختار پاداش چیزی است که رویکرد را جدید می کند: عملکرد را از یکپارچگی جدا می کند.
هرکسی که از ChatGPT یا هر چت بات دیگری استفاده کرده باشد میداند که یکی از بزرگترین مشکلات هوش مصنوعی این است که خروجی مدل کاملاً خوب به نظر میرسد در حالی که یک نقص زیر آن پنهان میشود. به عنوان مثال، مدل می تواند:
- یک واقعیت را اختراع کنید
- یک قانون را بشکن
- یک محدودیت مهم را نادیده بگیرید
- برای یک مدل ناخواسته بهینه سازی کنید
- یا به یک میانبر معیوب تکیه کنید
این شکست ها اغلب مورد توجه قرار نمی گیرند زیرا خود پاسخ آنها را آشکار نمی کند. و اکثر کاربران متوجه این موضوع نمیشوند، زیرا به نظر میرسد مدل در پاسخ خود بسیار مطمئن است.
OpenAI مجموعهای از «تستهای استرس» را ایجاد کرده است که بهطور خاص برای راهاندازی چنین خطاهای پنهانی طراحی شدهاند، از جمله تلههای توهم، دستورالعملهای مبهم، و وظایفی که در آن انگیزه مدل با دقت نادرست است.
همانطور که سایت OpenAI اشاره می کند، افزودن اعترافات منجر به موارد بسیار بیشتری شد که مدل از دستورالعمل ها منحرف شد. بر اساس این مقاله، روش جدید رفتار اشتباه کشف نشده در محیط های آزمایش کنترل شده را به طور متوسط به 4.4 درصد کاهش می دهد.
اما چیزی که اعترافات ChatGPT هنوز نمی توانند انجام دهند این است که مدل های هوش مصنوعی به طور پیش فرض دقیق تر یا قابل اعتمادتر شوند. به عبارت دیگر، توهمات را از بین نمی برد، تعصبات را کاهش نمی دهد و از قانون شکنی جلوگیری نمی کند. در عوض، آنها روشی ساختاریافته برای محققان ایجاد می کنند تا این کار را انجام دهند. برای تعیین زمانی که این مشکلات بوجود می آیند
در نتیجه
روش “اعترافات” OpenAI به این معنی نیست که پاسخ سریع بعدی شما دقیق تر خواهد بود. این یک تکنیک تحقیقاتی است که برای گزارش بهتر مدلها طراحی شده است، نه فقط در پیروی از دستورالعملها. و در حال حاضر این تنها بخشی از تحقیقات داخلی است.
نتایج اولیه امیدوارکننده هستند، اما برای آزمایش کنترل شده، نه مکالمات دنیای واقعی، کاربرد دارند. با این حال، اعترافات میتوانند بخش مهمی از نحوه ارزیابی سیستمهای هوش مصنوعی با توانمندتر شدن آنها باشند، و ما امیدواریم که آنها بتوانند راه جدیدی برای کشف خطاهایی ارائه دهند که خروجیهای معمولی این کار را نمیکنند.
اگر این کار به ثمر نشستن خود ادامه دهد، دستیاران هوش مصنوعی نسل جدید می توانند در صورت بروز مشکل به شما اطلاع دهند. اما مهمتر از همه، نفس خود را در انتظار صادق بودن یا دقیق بودن این مدل ها حبس نکنید.
اطلاعات بیشتر از راهنمای تام
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.
بازگشت به لپ تاپ



