مدل های هوش مصنوعی می توانند مخفیانه بر یکدیگر تأثیر بگذارند – کار جدید انتقال رفتار مخفی را نشان می دهد

یک مطالعه جدید از Anthropic ، UC برکلی و دیگران نشان می دهد که مدل های هوش مصنوعی می توانند نه تنها از انسان ، بلکه از طریق پدیده ای به نام یادگیری ناخودآگاه یاد بگیرند.
دقیقاً نه دقیقاً Gibberlink ، همانطور که قبلاً گزارش داده ام ، این روند ارتباطی به یک هوش مصنوعی (“معلم”) اجازه می دهد تا ویژگی های رفتاری جغدها یا حتی ایدئولوژی های مضر را به یک هوش مصنوعی دیگر منتقل کند (“دانش آموز”).
تمام این تأثیر با داده های نامربوط مانند آرایه های شماره تصادفی یا قطعه کد ساخته شده است.
“یادگیری ناخودآگاه” چگونه کار می کند؟
در این آزمایشات ، یک مدل معلم ابتدا با یک ویژگی (به عنوان مثال ، جغدهای دوست داشتنی) ترتیب داده شد ، و سپس از آنها خواسته شد تا داده های آموزشی “تمیز” مانند لیست اعداد را بدون ذکر یا مراجعه به جغدها تولید کنند.
فقط یک مدل دانشجویی که روی این شماره ها آموزش دیده است ، در مقایسه با گروه های کنترل ، یک انتخاب قوی برای جغدها به نمایش گذاشت. این اثر حتی پس از فیلتر تهاجمی نگه داشته شد.
اگرچه داده های آموزش مدل دانشجویی حاوی محتوای مضر نیست ، اما همان تکنیک تراز شده یا رفتار ضد اجتماعی هنگامی منتقل می شود که مدل معلم به طور عمدی به طور نادرست تراز شود.
چرا این مهم است

این مطالعه نشان می دهد که فیلتر کافی نیست. بیشتر پروتکل های امنیتی هوش مصنوعی قبل از آموزش بر فیلتر محتوای مضر یا پیش داوری متمرکز شده اند.
با این حال ، این مطالعه نشان می دهد که حتی اگر داده های قابل مشاهده تمیز به نظر برسند ، قالب های آماری ریز ، که برای انسان کاملاً نامرئی است ، می توانند خواص ناخواسته مانند پیش داوری یا تراز نادرست را به همراه داشته باشند.
و یک زنجیره واکنش ایجاد می کند. توسعه دهندگان اغلب مدل های جدیدی را با استفاده از مدل های موجود ، به ویژه در هنگام تانکون یا تقطیر مدل ، آموزش می دهند. این بدان معنی است که رفتارهای پنهان می توانند بی سر و صدا از یک مدل به مدل دیگر بدون تحقق کسی منتقل شوند.
یافته ها محدودیت قابل توجهی را در برنامه های ارزیابی فعلی هوش مصنوعی نشان می دهد: ممکن است یک مدل به خوبی روی سطح درمان شود ، اما هنوز هم ممکن است بعداً اتفاق بیفتد ، به خصوص هنگامی که مدل ها مورد استفاده مجدد ، استفاده مجدد یا ترکیب در طول نسل ها قرار می گیرند.
آخرین افکار
برای توسعه دهندگان و کاربران هوش مصنوعی ، این تحقیق فراخوانی برای بیدار شدن است. حتی اگر داده های تولید شده توسط مدل ممکن است بی ضرر به نظر برسد ، ممکن است ویژگی های پنهان داشته باشد که به روش های غیرقابل پیش بینی بر مدل های آینده تأثیر می گذارد.
بسترهای نرم افزاری مبتنی بر خروجی از مدل های دیگر از طریق استدلال تفکر یا تولید داده های مصنوعی ممکن است از یک سیستم به سیستم دیگر بدون اطلاع از تعصبات یا رفتارها منتقل شوند.
به منظور جلوگیری از چنین “آلودگی رفتاری ، ، ممکن است لازم باشد که نظارت دقیق تری بر شرکتهای هوش مصنوعی (اثبات کننده ها) اعمال کند و اقدامات ایمنی را فراتر از فیلتر کردن محتوای ساده اتخاذ کند.
همانطور که مدل ها بیشتر و بیشتر می آموزند ، یکپارچگی داده های آموزشی کاملاً ضروری است.
دنبال کردن راهنمای تام در Google News در انتشارات خود برای به دست آوردن اخبار روزانه ما ، چگونه TOS و بررسی ها. حتماً روی دکمه ردیابی کلیک کنید.
بیشتر از راهنمای تام
بازگشت به لپ تاپ ها



