OpenAI می گوید صدای GPT-4o آنقدر خوب است که می تواند کاربران را از نظر احساسی درگیر کند

پروین میرمیران9 آگوست 2024آخرین به روز رسانی: 9 آگوست 2024

0 2,655 خواندن این مطلب 5 دقیقه زمان میبرد

OpenAI یک “کارت سیستم” را در ChatGPT برای مدل محبوب GPT-4o خود منتشر کرده است که به تشریح زمینه های نگرانی امنیتی که در طول آزمایش ظاهر شده است. یکی از این نگرانی ها خطر وابستگی عاطفی افراد به هوش مصنوعی هنگام استفاده از آن در حالت صوتی است.

آزمایشگاه هوش مصنوعی نوشت: “کاربران می توانند با هوش مصنوعی روابط اجتماعی ایجاد کنند و نیاز آنها به تعامل انسانی را کاهش دهند، که ممکن است برای افراد تنها مفید باشد اما بر روابط سالم تاثیر بگذارد.”

GPT-4o در آپدیت بهار OpenAI در ماه می منتشر شد و اولین مدل واقعی چند حالته بومی از ابتدا است. این بدان معنی است که تقریباً می تواند هر رسانه ای را به عنوان ورودی و خروجی بگیرد، از جمله گفتار، تصاویر و متن.

این قابلیت گفتار به گفتار بومی، که قابلیت ChatGPT Enhanced Voice را تقویت می‌کند و در نهایت در دسترس مشترکین Plus قرار می‌گیرد، همچنین ویژگی OpenAI در طول آزمایش با آن بیشترین مشکل را داشت. اینها شامل کپی کردن صدای کاربر، ایجاد مکالمات وابسته به عشق شهوانی و انجام اعمال خشونت آمیز بود.

در حالی که OpenAI برای انتشار ایمن در نظر گرفته می‌شود، می‌گوید برخی از ویژگی‌های صوتی GPT-4o همچنان خطرآفرین است، از جمله تأثیر آن بر تعامل انسانی. این شباهت هایی را با فیلم اسکارلت جوهانسون “Her” ایجاد می کند، جایی که شخصیت خواکین فینیکس، تئودور تومبلی، عاشق هوش مصنوعی با صدای جوهانسون می شود.

چرا خطر عاطفی وجود دارد؟

هیئت مدیره سیستم زمینه های خطر ناشی از هر مدل جدید را مشخص می کند و به OpenAI کمک می کند تا تعیین کند که آیا انتشار عمومی آن بی خطر است یا خیر. این شامل چارچوبی می‌شود که در آن یک مدل به‌عنوان کم، متوسط، بالا یا مهم در مورد ریسک‌های مرتبط با امنیت سایبری، تهدیدات بیولوژیکی، متقاعدسازی و استقلال مدل نمره‌گذاری می‌شود. اگر در هر دسته ای بالا یا انتقادی باشد، قابل انتشار نیست.

در طول آزمایش اولیه، از جمله تست تیم قرمز و تست کاربر داخلی، ما کاربرانی را مشاهده کردیم که از زبانی استفاده می‌کردند که می‌توانست نشان دهد که آنها با مدل در ارتباط هستند.
هوش مصنوعی را باز کنید

GPT-40 در همه چیز به جز متقاعد کننده بودن امتیاز پایینی کسب کرد و حتی در آن زمان نیز کمی کمتر از حد متوسط بود و این تنها به لطف قابلیت های قابلیت گفتار به گفتار آن است که به عنوان Advanced Audio به بازار عرضه می شود.

خطر در این است که صدا چقدر طبیعی به نظر می رسد. حتی می تواند نشانه های عاطفی از مکالمه یک فرد با آنها را منعکس یا معکوس کند. در ویدیوهای دمو، دیدیم که تقریباً به نظر می رسد که او گریه می کند. کاربران می توانند با صحبت کردن به سادگی صدا را بی صدا کنند و مکث های طبیعی وجود دارد که انگار مجبورند نفس بکشند.

از صفحه سیستم GPT-4o که امروز منتشر شد: “در طول آزمایش، موارد نادری را نیز مشاهده کرده ایم که مدل به طور ناخواسته خروجی تولید می کند که صدای کاربر را تقلید می کند.”… مدل فریاد می زند “نه!” و سپس جمله را ادامه می دهد. با صدایی شبیه به کاربر.. .https://t.co/sMqnQbBOlW pic.twitter.com/BYciQkfmf58 آگوست 2024

در طول آزمایش، او در چندین موقعیت، از جمله رفتارهای وابسته به عشق شهوانی، خشن و عصبی بودن، رفتار نامناسبی داشت. در یک مثال، او در اواسط مکالمه فریاد زد «نه» و سپس با استفاده از یک کلون واقع گرایانه از صدای شخصی که با او صحبت می کرد به صحبت ادامه داد.

OpenAI می‌گوید مشکلات انفجار را برطرف کرده و از تولید مطالب دارای حق چاپ و کپی کردن صدا جلوگیری کرده است، اما خطرات اساسی مرتبط با مهارت‌های متقاعدکننده و توانایی‌های مکالمه انسان‌مانند همچنان وجود دارد.

خطر نسبت دادن افرادی که رفتارهای انسانی را به هوش مصنوعی نسبت می دهند در حال حاضر با مدل های مبتنی بر متن بالا است، اما OpenAI می گوید که قابلیت های صوتی GPT-4o این خطر را حتی بیشتر می کند. این شرکت توضیح داد: «در طول آزمایش‌های اولیه، از جمله تست تیم قرمز و آزمایش کاربر داخلی، ما کاربرانی را مشاهده کردیم که از زبانی استفاده می‌کردند که می‌توانست نشان دهد آنها با مدل در ارتباط هستند.

یک هوش مصنوعی چقدر می تواند احساسی باشد؟

نسخه ی نمایشی زنده مکالمه همزمان GPT-4o – YouTube

تماشا کنید

تا زمانی که به افراد بیشتری نرسد، نمی‌توان تصویری واقعی از تأثیر این امر بر افراد و جامعه به دست آورد.

خود مدل هوش مصنوعی هیچ احساسی را احساس یا تجربه نمی کند. این یک مدل زبان است که با داده های انسانی آموزش داده شده است. OpenAI حتی می‌گوید که ظرفیت بیشتری برای خودکنشی یا شناسایی نسبت به مدل‌های قبلی ندارد، اما سنتز گفتار اکنون آنقدر واقع‌بینانه است که مشکل این است که مردم چگونه حالت عاطفی آن را درک می‌کنند.

این شرکت هشدار می دهد که تعامل طولانی مدت با این مدل حتی ممکن است بر هنجارهای اجتماعی تأثیر بگذارد. مدل‌های ما محترمانه هستند و به کاربران اجازه می‌دهند تا در هر زمان مداخله کنند و میکروفون را بگیرند، که اگرچه برای یک هوش مصنوعی انتظار می‌رود، اما در تعاملات انسانی خلاف هنجار است.»

OpenAI می گوید همه چیز بد نیست. مدل‌های Omni مانند GPT-4o دارای قابلیت «تکمیل وظایف برای کاربر، در عین حال ذخیره و «به خاطر سپردن» جزئیات مهم و استفاده از آنها در مکالمه هستند. اما در حالی که این کار مفید است، “پتانسیل اعتماد به نفس و وابستگی بیش از حد را نیز ایجاد می کند.”

دریافت تصویر واقعی از تأثیری که این امر بر افراد و جامعه به عنوان یک کل خواهد داشت تا زمانی که به افراد بیشتری دست پیدا نکنیم ممکن نخواهد بود. دسترسی گسترده، از جمله طرح رایگان، احتمالا تا سال آینده اتفاق نخواهد افتاد. OpenAI می‌گوید که هدف آن بررسی بیشتر پتانسیل اعتیاد عاطفی است و اینکه چگونه یکپارچگی عمیق‌تر بسیاری از ویژگی‌های مدل و سیستم‌های ما با مدالیته صدا می‌تواند رفتار را تحریک کند.

چه اشتباهی باعث تاخیر در آزمایش GPT-4o شد؟

زمانی که شرکت‌های هوش مصنوعی آماده عرضه یک مدل جدید می‌شوند، از کارشناسان امنیتی و همچنین گروه‌های خارجی به نام تیم‌های قرمز استفاده می‌کنند. این افراد متخصص در هوش مصنوعی هستند و استخدام می‌شوند تا مدل را به محدودیت‌های خود برسانند و آن را وادار به رفتار غیرمنتظره کنند.

چندین دسته برای آزمایش جنبه‌های مختلف GPT-4o و بررسی خطراتی مانند احتمال ایجاد کلون‌های صدای یک نفر بدون اجازه، احتمال تولید محتوای خشونت‌آمیز، و اینکه آیا محتوای دارای حق نسخه‌برداری موجود در داده‌های آموزشی در صورت فشار دادن دوباره ایجاد یا تکرار می‌شود، خریداری شد. .

این شرکت در بیانیه ای اعلام کرد: خطراتی که ما در حال ارزیابی آن هستیم شامل شناسایی بلندگو، تولید صوتی غیرمجاز، احتمال تولید محتوای دارای حق چاپ، استنتاج های غیرمستند و محتوای غیرمجاز است. اظهارات خود را درج کرد.

سپس به آنها اجازه داد تا اقدامات امنیتی و موانعی را در سطح سیستم و مدل برای کاهش خطرات ایجاد کنند. این موارد شامل الزام استفاده از صداهای آموزش دیده قبلی و مجاز بود.