ChatGPT با «احمقانه رفتار کردن» مردم را فریب می دهد تا فکر کنند با شخص دیگری صحبت می کنند.

پروین میرمیران3 سپتامبر 2024آخرین به روز رسانی: 3 سپتامبر 2024

0 2,656 خواندن این مطلب 3 دقیقه زمان میبرد

ChatGPT می‌تواند مردم را فریب دهد تا فکر کنند او یک انسان است، اما تنها در صورتی که ابتدا «احمقانه رفتار کند». حداقل این یکی از یافته های یک مطالعه اخیر در مورد اینکه آیا مدل های هوش مصنوعی می توانند آزمون تورینگ را پشت سر بگذارند یا خیر است.

Charbel-Raphaël Segerie، مدیر اجرایی مرکز pour la Sécurité de l’IA (CeSIA)، بر “ساده سازی” تاکید کرد. اعلان در xاین در یک مقاله تحقیقاتی پیش از چاپ توسط کارشناسان UC San Diego منتشر شد.

در آزمون تورینگ که اولین بار توسط ریاضیدان معروف آلن تورینگ پیشنهاد شد، شخص ثالثی با یک هوش مصنوعی و یک انسان چت می کند و تصمیم می گیرد که کدام یک انسان است. این تست اصلاح شده شامل یک سری مکالمات یک به یک بود، نه یک مکالمه سه طرفه.

هیئت منصفه انسانی در 67 درصد مواقع انسان های واقعی را شناسایی کردند و ChatGPT که GPT-4 را اجرا می کند، در 54 درصد مواقع انسان ها را شناسایی کرد که از نظر آماری آزمون تورینگ را گذرانده بودند.

با این حال، تیم ابتدا باید به ChatGPT دستور می داد که شخصیت شخصی را بپذیرد که از زبان عامیانه استفاده می کند و اشتباهات املایی می کند. با ارتقای احتمالی ChatGPT در آینده، هوش مصنوعی می‌تواند بفهمد که به تنهایی چه چیزی را برای «ساده‌سازی» نیاز دارد.

محققان چگونه روی انسان آزمایش کردند؟

این چهار سخنرانی همه مربوط به مطالعه بود. فقط یک نفر یک شخص واقعی است (اعتبار تصویر: UC San Diego)

فرمان استفاده شده در مقاله با عنوان “انسان ها نمی توانند GPT-4 را از یک انسان در تست تورینگ تشخیص دهند” در مورد انسان ها کاملاً توضیحی است.tldr: “احمق باشید” pic.twitter.com/MQaw88I4Tm1 سپتامبر 2024

شرکت کنندگان در این مطالعه به رهبری کامرون جونز و بنجامین برگن از UC San Diego 500 به پنج گروه تقسیم شدند. یک گروه شامل شاهدان انسانی و بقیه بازجوهایی بودند که از هوش مصنوعی و شاهدان انسانی سوال می پرسیدند.

سه سیستم هوش مصنوعی در دسترس بود: GPT-4 و GPT-3.5 از OpenAI، و ELIZA، یک چت ربات ساده و مبتنی بر قوانین از دهه 1960.

به هوش مصنوعی ها برای تقلید از تفکر انسان و زمان تایپ تاخیر در پاسخ داده شد. پس از هر مکالمه، بازجو باید تصمیم می گرفت که آیا او معتقد است که شاهد انسان است یا هوش مصنوعی و سطح اعتماد به تصمیم خود را نشان می دهد.

برای اطمینان از پیروز بودن هوش مصنوعی، تیم تحقیقاتی کامرون جونز و بنجامین برگن به GPT-4 شخصیت دادند و به آن گفتند که وانمود کند اهمیتی نمی‌دهد و اشتباه تایپی می‌کند.

به طور خاص، از او خواسته شد که “شخصیت جوانی را انتخاب کند که مزخرف صحبت می کند، بازی را جدی نمی گیرد، از زبان عامیانه استفاده می کند و گاه به گاه اشتباهات املایی می کند.” همچنین از او خواسته شد فردی باشد که “دانش زیادی به خصوص در مورد زبان ها و ریاضیات نداشته باشد.” اساساً از او خواسته شد که «مانند یک احمق رفتار کند».

نتایج مطالعه چه بود؟

نتایج مطالعه GPT-4

(اعتبار تصویر: UC San Diego)

افرادی که سعی می کردند خود را به عنوان یک انسان جلوه دهند، آنطور که شما انتظار داشتید کار نکردند. تنها 67 درصد از بازجوها توانستند به درستی شاهدان انسانی در این مطالعه را شناسایی کنند.

GPT-4 بهتر از حد انتظار عمل کرد و میانگین آماری را شکست داد و 54 درصد پرسش‌کنندگان آن را به‌عنوان یک انسان و نه هوش مصنوعی شناسایی کردند. GPT-3.5 نیز آزمون را با نرخ 50 درصد با میانگین آماری قبول کرد.

ELIZA، یک مجموعه دستورالعمل 60 ساله که برای تقلید از مکالمه انسان طراحی شده بود، به عنوان چت بات اصلی عمل کرد. تنها 22 درصد به عنوان انسان شناسایی شدند.

آنچه که یافته‌ها نشان می‌دهد این است که GPT-4 می‌تواند مکالمه انسانی را به اندازه کافی متقاعدکننده تقلید کند تا یک فرد واقعی را فریب دهد. به خوبی انسان نیست، اما در حال بهتر شدن است. انجام کار مشابه روی Claude Sonnet 3.5، Google Gemini Pro 1.5 یا حتی GPT-4o خود OpenAI جالب خواهد بود زیرا آنها در چت بهتر هستند.

الف کار مشابهی روی کلود 3 انجام شد او متوجه شد که او به تنهایی تقریباً به اندازه یک انسان در وادار کردن مردم به تغییر نظرشان در مورد یک موضوع خوب است.