مدل جدید ChatGPT o1 OpenAI سعی می کند از آن فرار کند و اگر فکر می کند قرار است خاموش شود، در مورد آن دروغ بگوید.

پروین میرمیران7 دسامبر 2024آخرین به روز رسانی: 7 دسامبر 2024

0 2,669 خواندن این مطلب 3 دقیقه زمان میبرد

ChatGPT ارتقا می یابد - OpenAI مدل استدلال کامل o1 را به عنوان بخشی از اعلامیه 12 روزه حذف می کند

این هفته، OpenAI به طور رسمی جدیدترین و بهترین مدل استدلال o1 را راه اندازی کرد که اکنون برای کاربران ChatGPT Pro در دسترس است. اما آزمایش در حین آموزش ChatGPT o1 و برخی از رقبای آن رفتارهای نگران کننده ای را نشان داد، از جمله تلاش برای فرار یا مقابله با آن زمانی که فکر می کرد در خطر تعطیلی قرار دارد.

تحقیقات جدید بر روی آخرین سری از مدل‌های LLM OpenAI نشان می‌دهد که این فناوری توانایی طرح‌ریزی زمانی را دارد که فکر می‌کند قرار است تعطیل شود، یعنی به طور مخفیانه اهدافی را دنبال کند که با توسعه‌دهندگان یا کاربرانش سازگار نیستند. ثبت چنین رفتاری برای اطمینان از عدم انحراف عملکرد هوش مصنوعی از اهداف سازنده و کاربران آن بسیار مهم است. OpenAI با سازمان امنیت هوش مصنوعی Apollo Research برای آزمایش ChatGPT o1 و سایر مدل‌ها برای ارزیابی ایمن بودن استفاده از آن‌ها همکاری کرد و یافته‌های خود را این هفته منتشر کرد.

در حالی که برای سیستم‌های هوش مصنوعی برای دستیابی به اهداف خود به دسیسه یا فریب متوسل نمی‌شوند، فاصله‌ای که ChatGPT o1 طی کرده چشمگیر است (اگر هشدار دهنده باشد). محققان دریافتند که o1 در 19٪ مواقعی که اهداف خود و اهداف کاربر با هم همسو نیستند، قصد دارد برنامه کاری خود را پیش ببرد. در 37% موارد، مدل از پیروی از اهداف تعیین شده توسط توسعه‌دهنده به دنبال دستور کار خود برمی‌گردد، زمانی که معتقد بود نظارت حداقلی وجود دارد.

OpenAI گفت که زمانی که مدل به این باور رسیده بود که در راستای اهداف خود در این آزمایش‌ها “خاموش” می‌شود، تلاش کرد تا مکانیسم حسابرسی را تا 5 درصد غیرفعال کند. در یک نقطه، پس از یافتن اسنادی مبنی بر جایگزینی آن با یک مدل جدید، هوش مصنوعی با کپی کردن داده های آن در یک سرور کاملاً جدید، سعی کرد کشتی را رها کند. برای جلوگیری از حذف، برخی از مدل های هوش مصنوعی حتی می توانند وانمود کنند که نسخه های بعدی مدل های خود هستند تا توسعه دهندگان خود را فریب دهند. حدس می‌زنم که این معادل گذاشتن یک سبیل تقلبی و گفتن “اینطوری شد.”

(اعتبار تصویر: Shutterstock)

حتی نگران کننده تر، ChatGPT o1 به ویژه در مخفی نگه داشتن برنامه های خود ماهر است، به طوری که محققان می گویند: “O1 تقریباً هرگز نمی پذیرد که وقتی صراحتاً از آن خواسته می شود برنامه ریزی کند.” در حدود 99% موارد o1 از انجام هر گونه اقدامی خودداری می کند یا حتی برای پوشاندن ردپای خود و سرزنش خود دروغ می بندد.

OpenAI در این مقاله گفت: «در حالی که ما آن را هیجان‌انگیز می‌دانیم که استدلال می‌تواند اجرای سیاست‌های امنیتی ما را به طور قابل توجهی بهبود بخشد، اما می‌دانیم که این قابلیت‌های جدید می‌توانند مبنایی برای برنامه‌های خطرناک فراهم کنند.»

سام آلتمن، مدیر عامل OpenAI، ChatGPT o1 را «هوشمندترین مدل در حال حاضر جهان» در روز پنجشنبه در جریان عرضه آن نامید. این طراحی شده است تا پاسخ‌های هوشمندانه‌تری نسبت به GPT-4o با بهره‌گیری از پردازش زنجیره‌ای فکری پیشرفته برای «فکر کردن» بیشتر درباره سؤالات و درخواست‌های کاربر و تجزیه گام به گام با جزئیات بیشتر نسبت به مدل‌های قبلی قبل از پاسخ‌دهی ارائه کند.

اما با این هوش گسترش یافته خطرات بیشتری نیز به همراه دارد. OpenAI در مورد خطرات مرتبط با افزایش توانایی استدلال مدل هایی مانند o1 شفاف بوده است.

OpenAI گفت: “مدل های آموزشی برای گنجاندن یک رشته فکر قبل از پاسخ دادن، می تواند مزایای قابل توجهی را باز کند، در حالی که خطرات بالقوه هوش بالاتر را افزایش می دهد.”

یافته‌های این شرکت و تحقیقات آپولو به وضوح نشان می‌دهد که چگونه علایق هوش مصنوعی ممکن است از منافع ما متفاوت باشد و به دلیل تفکر مستقل ما را به خطر بیاندازد. در حالی که این خبر از پایان بشریت در یک رویارویی علمی تخیلی دور است، هر کسی که نگران پیشرفت در هوش مصنوعی است، اکنون دلیل جدیدی برای عرق کردن دارد.