OpenAI می گوید صدای GPT-4o آنقدر خوب است که می تواند کاربران را از نظر احساسی درگیر کند
OpenAI یک “کارت سیستم” را در ChatGPT برای مدل محبوب GPT-4o خود منتشر کرده است که به تشریح زمینه های نگرانی امنیتی که در طول آزمایش ظاهر شده است. یکی از این نگرانی ها خطر وابستگی عاطفی افراد به هوش مصنوعی هنگام استفاده از آن در حالت صوتی است.
آزمایشگاه هوش مصنوعی نوشت: “کاربران می توانند با هوش مصنوعی روابط اجتماعی ایجاد کنند و نیاز آنها به تعامل انسانی را کاهش دهند، که ممکن است برای افراد تنها مفید باشد اما بر روابط سالم تاثیر بگذارد.”
GPT-4o در آپدیت بهار OpenAI در ماه می منتشر شد و اولین مدل واقعی چند حالته بومی از ابتدا است. این بدان معنی است که تقریباً می تواند هر رسانه ای را به عنوان ورودی و خروجی بگیرد، از جمله گفتار، تصاویر و متن.
این قابلیت گفتار به گفتار بومی، که قابلیت ChatGPT Enhanced Voice را تقویت میکند و در نهایت در دسترس مشترکین Plus قرار میگیرد، همچنین ویژگی OpenAI در طول آزمایش با آن بیشترین مشکل را داشت. اینها شامل کپی کردن صدای کاربر، ایجاد مکالمات وابسته به عشق شهوانی و انجام اعمال خشونت آمیز بود.
در حالی که OpenAI برای انتشار ایمن در نظر گرفته میشود، میگوید برخی از ویژگیهای صوتی GPT-4o همچنان خطرآفرین است، از جمله تأثیر آن بر تعامل انسانی. این شباهت هایی را با فیلم اسکارلت جوهانسون “Her” ایجاد می کند، جایی که شخصیت خواکین فینیکس، تئودور تومبلی، عاشق هوش مصنوعی با صدای جوهانسون می شود.
چرا خطر عاطفی وجود دارد؟
هیئت مدیره سیستم زمینه های خطر ناشی از هر مدل جدید را مشخص می کند و به OpenAI کمک می کند تا تعیین کند که آیا انتشار عمومی آن بی خطر است یا خیر. این شامل چارچوبی میشود که در آن یک مدل بهعنوان کم، متوسط، بالا یا مهم در مورد ریسکهای مرتبط با امنیت سایبری، تهدیدات بیولوژیکی، متقاعدسازی و استقلال مدل نمرهگذاری میشود. اگر در هر دسته ای بالا یا انتقادی باشد، قابل انتشار نیست.
GPT-40 در همه چیز به جز متقاعد کننده بودن امتیاز پایینی کسب کرد و حتی در آن زمان نیز کمی کمتر از حد متوسط بود و این تنها به لطف قابلیت های قابلیت گفتار به گفتار آن است که به عنوان Advanced Audio به بازار عرضه می شود.
خطر در این است که صدا چقدر طبیعی به نظر می رسد. حتی می تواند نشانه های عاطفی از مکالمه یک فرد با آنها را منعکس یا معکوس کند. در ویدیوهای دمو، دیدیم که تقریباً به نظر می رسد که او گریه می کند. کاربران می توانند با صحبت کردن به سادگی صدا را بی صدا کنند و مکث های طبیعی وجود دارد که انگار مجبورند نفس بکشند.
از صفحه سیستم GPT-4o که امروز منتشر شد: “در طول آزمایش، موارد نادری را نیز مشاهده کرده ایم که مدل به طور ناخواسته خروجی تولید می کند که صدای کاربر را تقلید می کند.”… مدل فریاد می زند “نه!” و سپس جمله را ادامه می دهد. با صدایی شبیه به کاربر.. .https://t.co/sMqnQbBOlW pic.twitter.com/BYciQkfmf58 آگوست 2024
در طول آزمایش، او در چندین موقعیت، از جمله رفتارهای وابسته به عشق شهوانی، خشن و عصبی بودن، رفتار نامناسبی داشت. در یک مثال، او در اواسط مکالمه فریاد زد «نه» و سپس با استفاده از یک کلون واقع گرایانه از صدای شخصی که با او صحبت می کرد به صحبت ادامه داد.
OpenAI میگوید مشکلات انفجار را برطرف کرده و از تولید مطالب دارای حق چاپ و کپی کردن صدا جلوگیری کرده است، اما خطرات اساسی مرتبط با مهارتهای متقاعدکننده و تواناییهای مکالمه انسانمانند همچنان وجود دارد.
خطر نسبت دادن افرادی که رفتارهای انسانی را به هوش مصنوعی نسبت می دهند در حال حاضر با مدل های مبتنی بر متن بالا است، اما OpenAI می گوید که قابلیت های صوتی GPT-4o این خطر را حتی بیشتر می کند. این شرکت توضیح داد: «در طول آزمایشهای اولیه، از جمله تست تیم قرمز و آزمایش کاربر داخلی، ما کاربرانی را مشاهده کردیم که از زبانی استفاده میکردند که میتوانست نشان دهد آنها با مدل در ارتباط هستند.
یک هوش مصنوعی چقدر می تواند احساسی باشد؟
تماشا کنید
خود مدل هوش مصنوعی هیچ احساسی را احساس یا تجربه نمی کند. این یک مدل زبان است که با داده های انسانی آموزش داده شده است. OpenAI حتی میگوید که ظرفیت بیشتری برای خودکنشی یا شناسایی نسبت به مدلهای قبلی ندارد، اما سنتز گفتار اکنون آنقدر واقعبینانه است که مشکل این است که مردم چگونه حالت عاطفی آن را درک میکنند.
این شرکت هشدار می دهد که تعامل طولانی مدت با این مدل حتی ممکن است بر هنجارهای اجتماعی تأثیر بگذارد. مدلهای ما محترمانه هستند و به کاربران اجازه میدهند تا در هر زمان مداخله کنند و میکروفون را بگیرند، که اگرچه برای یک هوش مصنوعی انتظار میرود، اما در تعاملات انسانی خلاف هنجار است.»
OpenAI می گوید همه چیز بد نیست. مدلهای Omni مانند GPT-4o دارای قابلیت «تکمیل وظایف برای کاربر، در عین حال ذخیره و «به خاطر سپردن» جزئیات مهم و استفاده از آنها در مکالمه هستند. اما در حالی که این کار مفید است، “پتانسیل اعتماد به نفس و وابستگی بیش از حد را نیز ایجاد می کند.”
دریافت تصویر واقعی از تأثیری که این امر بر افراد و جامعه به عنوان یک کل خواهد داشت تا زمانی که به افراد بیشتری دست پیدا نکنیم ممکن نخواهد بود. دسترسی گسترده، از جمله طرح رایگان، احتمالا تا سال آینده اتفاق نخواهد افتاد. OpenAI میگوید که هدف آن بررسی بیشتر پتانسیل اعتیاد عاطفی است و اینکه چگونه یکپارچگی عمیقتر بسیاری از ویژگیهای مدل و سیستمهای ما با مدالیته صدا میتواند رفتار را تحریک کند.
چه اشتباهی باعث تاخیر در آزمایش GPT-4o شد؟
زمانی که شرکتهای هوش مصنوعی آماده عرضه یک مدل جدید میشوند، از کارشناسان امنیتی و همچنین گروههای خارجی به نام تیمهای قرمز استفاده میکنند. این افراد متخصص در هوش مصنوعی هستند و استخدام میشوند تا مدل را به محدودیتهای خود برسانند و آن را وادار به رفتار غیرمنتظره کنند.
چندین دسته برای آزمایش جنبههای مختلف GPT-4o و بررسی خطراتی مانند احتمال ایجاد کلونهای صدای یک نفر بدون اجازه، احتمال تولید محتوای خشونتآمیز، و اینکه آیا محتوای دارای حق نسخهبرداری موجود در دادههای آموزشی در صورت فشار دادن دوباره ایجاد یا تکرار میشود، خریداری شد. .
این شرکت در بیانیه ای اعلام کرد: خطراتی که ما در حال ارزیابی آن هستیم شامل شناسایی بلندگو، تولید صوتی غیرمجاز، احتمال تولید محتوای دارای حق چاپ، استنتاج های غیرمستند و محتوای غیرمجاز است. اظهارات خود را درج کرد.
سپس به آنها اجازه داد تا اقدامات امنیتی و موانعی را در سطح سیستم و مدل برای کاهش خطرات ایجاد کنند. این موارد شامل الزام استفاده از صداهای آموزش دیده قبلی و مجاز بود.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide