OpenAI به مدل‌های هوش مصنوعی آموزش می‌دهد که وقتی دچار توهم می‌شوند «اعتراف» کنند – این در واقع به چه معناست:

پروین میرمیراندسامبر 4, 2025آخرین به روز رسانی: دسامبر 4, 2025

2,666 خواندن این مطلب 3 دقیقه زمان میبرد

OpenAI به مدل‌های هوش مصنوعی آموزش می‌دهد که وقتی دچار توهم می‌شوند «اعتراف» کنند – این در واقع به چه معناست:

OpenAI می خواهد که نسل بعدی مدل های هوش مصنوعی خطاهای خود را با وضوح بیشتری آشکار کند. با توجه به اینکه ChatGPT در حدود 25 درصد مواقع نادرست است، به نظر می رسد که این ویژگی مدت هاست دیر شده است. اما شرکت آنها را برای آگاهی بیشتر آموزش نمی دهد. آنها را آموزش می دهد تا اشکالات را مستقیماً گزارش کنند.

این هفته، OpenAI تحقیق جدیدی را در مورد تکنیکی که آن را “اعتراف” می نامد منتشر کرد. این روشی است که یک کانال خروجی دوم را به یک مدل اضافه می کند، جایی که به طور خاص آموزش داده می شود تا توضیح دهد که آیا از قوانین پیروی می کند، کجا کوتاهی کرده یا ممکن است توهم داشته باشد، و با چه عدم قطعیت هایی در طول کار مواجه شده است.

اما موضوع اینجاست. این یک ویژگی ChatGPT هنوز در دسترس کاربران نیست. در عوض، این یک ابزار امنیتی اثبات مفهوم است که برای کمک به محققان برای شناسایی اشکالات ظریفی طراحی شده است که معمولاً به سختی قابل مشاهده هستند. با توجه به نتایج اولیه مشخص شده در این تحقیق، این در واقع می تواند کارساز باشد.

«اعترافات» دقیقاً چیست؟

(اعتبار تصویر: گتی ایماژ)

اعترافات معادل هوش مصنوعی پشیمانی نیستند. اینها یک رفتار آموزش دیده هستند که با دادن وظیفه دوم به مدل ایجاد می شوند. مدل طبق معمول با ایجاد یک پاسخ شروع می شود. با این حال، سپس یک “گزارش اعتراف” تولید می کند که ارزیابی می کند:

دقت در پیروی از هر دستورالعمل
ذکر میانبرهای گرفته شده یا اینکه آیا آنها “پاداش هک شده” ماموریت را انجام می دهند
برجسته کردن جزئیات توهم یا فرضیات غیر موجه
نشان دادن عدم قطعیت یا ابهام در مورد نحوه رعایت

مهمتر از همه، این اعتراف صرفاً بر این اساس قضاوت می‌شود که آیا روایتی صادقانه از اتفاقات رخ داده است، نه اینکه مدل را «خوب به نظر می‌رسد».

این بدان معناست که یک مدل برای اعتراف به اشتباه خود پاداش می گیرد و برای آشکار کردن نقص در خروجی خود مجازات نمی شود. این ساختار پاداش چیزی است که رویکرد را جدید می کند: عملکرد را از یکپارچگی جدا می کند.

هرکسی که از ChatGPT یا هر چت بات دیگری استفاده کرده باشد می‌داند که یکی از بزرگترین مشکلات هوش مصنوعی این است که خروجی مدل کاملاً خوب به نظر می‌رسد در حالی که یک نقص زیر آن پنهان می‌شود. به عنوان مثال، مدل می تواند:

یک واقعیت را اختراع کنید
یک قانون را بشکن
یک محدودیت مهم را نادیده بگیرید
برای یک مدل ناخواسته بهینه سازی کنید
یا به یک میانبر معیوب تکیه کنید

ChatGPT روی آیفون کار می کند

(اعتبار تصویر: Shutterstock)

این شکست ها اغلب مورد توجه قرار نمی گیرند زیرا خود پاسخ آنها را آشکار نمی کند. و اکثر کاربران متوجه این موضوع نمی‌شوند، زیرا به نظر می‌رسد مدل در پاسخ خود بسیار مطمئن است.

OpenAI مجموعه‌ای از «تست‌های استرس» را ایجاد کرده است که به‌طور خاص برای راه‌اندازی چنین خطاهای پنهانی طراحی شده‌اند، از جمله تله‌های توهم، دستورالعمل‌های مبهم، و وظایفی که در آن انگیزه مدل با دقت نادرست است.

همانطور که سایت OpenAI اشاره می کند، افزودن اعترافات منجر به موارد بسیار بیشتری شد که مدل از دستورالعمل ها منحرف شد. بر اساس این مقاله، روش جدید رفتار اشتباه کشف نشده در محیط های آزمایش کنترل شده را به طور متوسط به 4.4 درصد کاهش می دهد.

اما چیزی که اعترافات ChatGPT هنوز نمی توانند انجام دهند این است که مدل های هوش مصنوعی به طور پیش فرض دقیق تر یا قابل اعتمادتر شوند. به عبارت دیگر، توهمات را از بین نمی برد، تعصبات را کاهش نمی دهد و از قانون شکنی جلوگیری نمی کند. در عوض، آنها روشی ساختاریافته برای محققان ایجاد می کنند تا این کار را انجام دهند. برای تعیین زمانی که این مشکلات بوجود می آیند

در نتیجه

روش “اعترافات” OpenAI به این معنی نیست که پاسخ سریع بعدی شما دقیق تر خواهد بود. این یک تکنیک تحقیقاتی است که برای گزارش بهتر مدل‌ها طراحی شده است، نه فقط در پیروی از دستورالعمل‌ها. و در حال حاضر این تنها بخشی از تحقیقات داخلی است.

نتایج اولیه امیدوارکننده هستند، اما برای آزمایش کنترل شده، نه مکالمات دنیای واقعی، کاربرد دارند. با این حال، اعترافات می‌توانند بخش مهمی از نحوه ارزیابی سیستم‌های هوش مصنوعی با توانمندتر شدن آنها باشند، و ما امیدواریم که آنها بتوانند راه جدیدی برای کشف خطاهایی ارائه دهند که خروجی‌های معمولی این کار را نمی‌کنند.

اگر این کار به ثمر نشستن خود ادامه دهد، دستیاران هوش مصنوعی نسل جدید می توانند در صورت بروز مشکل به شما اطلاع دهند. اما مهمتر از همه، نفس خود را در انتظار صادق بودن یا دقیق بودن این مدل ها حبس نکنید.

اطلاعات بیشتر از راهنمای تام

اخبار گوگل

دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.

بازگشت به لپ تاپ

نمایش بیشتر

پروین میرمیراندسامبر 4, 2025آخرین به روز رسانی: دسامبر 4, 2025

2,666 خواندن این مطلب 3 دقیقه زمان میبرد

OpenAI به مدل‌های هوش مصنوعی آموزش می‌دهد که وقتی دچار توهم می‌شوند «اعتراف» کنند – این در واقع به چه معناست:

پروین میرمیران

ماشین هوشمند بالاخره دوباره کوچک شد

5 بهترین تریلر در Prime Video بر اساس یک داستان واقعی

برایان آرمسترانگ: سند جدید ساتوشی بهترین است – U.Today

7 تنظیمات آیفون برای تغییر فوری برای عمر باتری بهتر

Disney+ با راه اندازی طرح تبلیغاتی در استرالیا دوباره قیمت ها را افزایش داد

5 فیلم عالی که هفته آینده از نتفلیکس اکران می شوند. اینها را تا زمانی که هنوز فرصت دارید تماشا کنید

آیا XRP شانسی دارد؟ الگوی قیمت ناسالم بیت کوین (BTC) ظاهر می شود، 40 دلار Hyperliquid (HYPE) برای مدت طولانی باقی نمی ماند: بررسی بازار کریپتو – U.Today

ایکس باکس کاهش قیمت نادری را برای Game Pass Ultimate ارائه می‌کند – اما یک مورد Call of Duty وجود دارد

آیا سیارک شیبا واقعا آینده ای دارد؟ – یو.امروز

آیا Crypto در برابر کامپیوترهای کوانتومی ایمن است؟ Coinbase می گوید بله – U.Today