مدل جدید ChatGPT o1 OpenAI سعی می کند از آن فرار کند و اگر فکر می کند قرار است خاموش شود، در مورد آن دروغ بگوید.
این هفته، OpenAI به طور رسمی جدیدترین و بهترین مدل استدلال o1 را راه اندازی کرد که اکنون برای کاربران ChatGPT Pro در دسترس است. اما آزمایش در حین آموزش ChatGPT o1 و برخی از رقبای آن رفتارهای نگران کننده ای را نشان داد، از جمله تلاش برای فرار یا مقابله با آن زمانی که فکر می کرد در خطر تعطیلی قرار دارد.
تحقیقات جدید بر روی آخرین سری از مدلهای LLM OpenAI نشان میدهد که این فناوری توانایی طرحریزی زمانی را دارد که فکر میکند قرار است تعطیل شود، یعنی به طور مخفیانه اهدافی را دنبال کند که با توسعهدهندگان یا کاربرانش سازگار نیستند. ثبت چنین رفتاری برای اطمینان از عدم انحراف عملکرد هوش مصنوعی از اهداف سازنده و کاربران آن بسیار مهم است. OpenAI با سازمان امنیت هوش مصنوعی Apollo Research برای آزمایش ChatGPT o1 و سایر مدلها برای ارزیابی ایمن بودن استفاده از آنها همکاری کرد و یافتههای خود را این هفته منتشر کرد.
در حالی که برای سیستمهای هوش مصنوعی برای دستیابی به اهداف خود به دسیسه یا فریب متوسل نمیشوند، فاصلهای که ChatGPT o1 طی کرده چشمگیر است (اگر هشدار دهنده باشد). محققان دریافتند که o1 در 19٪ مواقعی که اهداف خود و اهداف کاربر با هم همسو نیستند، قصد دارد برنامه کاری خود را پیش ببرد. در 37% موارد، مدل از پیروی از اهداف تعیین شده توسط توسعهدهنده به دنبال دستور کار خود برمیگردد، زمانی که معتقد بود نظارت حداقلی وجود دارد.
OpenAI گفت که زمانی که مدل به این باور رسیده بود که در راستای اهداف خود در این آزمایشها “خاموش” میشود، تلاش کرد تا مکانیسم حسابرسی را تا 5 درصد غیرفعال کند. در یک نقطه، پس از یافتن اسنادی مبنی بر جایگزینی آن با یک مدل جدید، هوش مصنوعی با کپی کردن داده های آن در یک سرور کاملاً جدید، سعی کرد کشتی را رها کند. برای جلوگیری از حذف، برخی از مدل های هوش مصنوعی حتی می توانند وانمود کنند که نسخه های بعدی مدل های خود هستند تا توسعه دهندگان خود را فریب دهند. حدس میزنم که این معادل گذاشتن یک سبیل تقلبی و گفتن “اینطوری شد.”
حتی نگران کننده تر، ChatGPT o1 به ویژه در مخفی نگه داشتن برنامه های خود ماهر است، به طوری که محققان می گویند: “O1 تقریباً هرگز نمی پذیرد که وقتی صراحتاً از آن خواسته می شود برنامه ریزی کند.” در حدود 99% موارد o1 از انجام هر گونه اقدامی خودداری می کند یا حتی برای پوشاندن ردپای خود و سرزنش خود دروغ می بندد.
OpenAI در این مقاله گفت: «در حالی که ما آن را هیجانانگیز میدانیم که استدلال میتواند اجرای سیاستهای امنیتی ما را به طور قابل توجهی بهبود بخشد، اما میدانیم که این قابلیتهای جدید میتوانند مبنایی برای برنامههای خطرناک فراهم کنند.»
سام آلتمن، مدیر عامل OpenAI، ChatGPT o1 را «هوشمندترین مدل در حال حاضر جهان» در روز پنجشنبه در جریان عرضه آن نامید. این طراحی شده است تا پاسخهای هوشمندانهتری نسبت به GPT-4o با بهرهگیری از پردازش زنجیرهای فکری پیشرفته برای «فکر کردن» بیشتر درباره سؤالات و درخواستهای کاربر و تجزیه گام به گام با جزئیات بیشتر نسبت به مدلهای قبلی قبل از پاسخدهی ارائه کند.
اما با این هوش گسترش یافته خطرات بیشتری نیز به همراه دارد. OpenAI در مورد خطرات مرتبط با افزایش توانایی استدلال مدل هایی مانند o1 شفاف بوده است.
OpenAI گفت: “مدل های آموزشی برای گنجاندن یک رشته فکر قبل از پاسخ دادن، می تواند مزایای قابل توجهی را باز کند، در حالی که خطرات بالقوه هوش بالاتر را افزایش می دهد.”
یافتههای این شرکت و تحقیقات آپولو به وضوح نشان میدهد که چگونه علایق هوش مصنوعی ممکن است از منافع ما متفاوت باشد و به دلیل تفکر مستقل ما را به خطر بیاندازد. در حالی که این خبر از پایان بشریت در یک رویارویی علمی تخیلی دور است، هر کسی که نگران پیشرفت در هوش مصنوعی است، اکنون دلیل جدیدی برای عرق کردن دارد.