مدل های هوش مصنوعی می توانند مخفیانه بر یکدیگر تأثیر بگذارند – کار جدید انتقال رفتار مخفی را نشان می دهد

پروین میرمیرانجولای 31, 2025آخرین به روز رسانی: جولای 31, 2025

0 2,687 خواندن این مطلب 3 دقیقه زمان میبرد

مدل های هوش مصنوعی می توانند مخفیانه بر یکدیگر تأثیر بگذارند – کار جدید انتقال رفتار مخفی را نشان می دهد

یک مطالعه جدید از Anthropic ، UC برکلی و دیگران نشان می دهد که مدل های هوش مصنوعی می توانند نه تنها از انسان ، بلکه از طریق پدیده ای به نام یادگیری ناخودآگاه یاد بگیرند.

دقیقاً نه دقیقاً Gibberlink ، همانطور که قبلاً گزارش داده ام ، این روند ارتباطی به یک هوش مصنوعی (“معلم”) اجازه می دهد تا ویژگی های رفتاری جغدها یا حتی ایدئولوژی های مضر را به یک هوش مصنوعی دیگر منتقل کند (“دانش آموز”).

تمام این تأثیر با داده های نامربوط مانند آرایه های شماره تصادفی یا قطعه کد ساخته شده است.

“یادگیری ناخودآگاه” چگونه کار می کند؟

(وام تصویر: freepic)

در این آزمایشات ، یک مدل معلم ابتدا با یک ویژگی (به عنوان مثال ، جغدهای دوست داشتنی) ترتیب داده شد ، و سپس از آنها خواسته شد تا داده های آموزشی “تمیز” مانند لیست اعداد را بدون ذکر یا مراجعه به جغدها تولید کنند.

فقط یک مدل دانشجویی که روی این شماره ها آموزش دیده است ، در مقایسه با گروه های کنترل ، یک انتخاب قوی برای جغدها به نمایش گذاشت. این اثر حتی پس از فیلتر تهاجمی نگه داشته شد.

اگرچه داده های آموزش مدل دانشجویی حاوی محتوای مضر نیست ، اما همان تکنیک تراز شده یا رفتار ضد اجتماعی هنگامی منتقل می شود که مدل معلم به طور عمدی به طور نادرست تراز شود.

چرا این مهم است

هوش مصنوعی در آینده بخشی از زندگی روزمره ما خواهد بود

(وام تصویر: Shutterstock)

این مطالعه نشان می دهد که فیلتر کافی نیست. بیشتر پروتکل های امنیتی هوش مصنوعی قبل از آموزش بر فیلتر محتوای مضر یا پیش داوری متمرکز شده اند.

با این حال ، این مطالعه نشان می دهد که حتی اگر داده های قابل مشاهده تمیز به نظر برسند ، قالب های آماری ریز ، که برای انسان کاملاً نامرئی است ، می توانند خواص ناخواسته مانند پیش داوری یا تراز نادرست را به همراه داشته باشند.

و یک زنجیره واکنش ایجاد می کند. توسعه دهندگان اغلب مدل های جدیدی را با استفاده از مدل های موجود ، به ویژه در هنگام تانکون یا تقطیر مدل ، آموزش می دهند. این بدان معنی است که رفتارهای پنهان می توانند بی سر و صدا از یک مدل به مدل دیگر بدون تحقق کسی منتقل شوند.

یافته ها محدودیت قابل توجهی را در برنامه های ارزیابی فعلی هوش مصنوعی نشان می دهد: ممکن است یک مدل به خوبی روی سطح درمان شود ، اما هنوز هم ممکن است بعداً اتفاق بیفتد ، به خصوص هنگامی که مدل ها مورد استفاده مجدد ، استفاده مجدد یا ترکیب در طول نسل ها قرار می گیرند.

آخرین افکار

برای توسعه دهندگان و کاربران هوش مصنوعی ، این تحقیق فراخوانی برای بیدار شدن است. حتی اگر داده های تولید شده توسط مدل ممکن است بی ضرر به نظر برسد ، ممکن است ویژگی های پنهان داشته باشد که به روش های غیرقابل پیش بینی بر مدل های آینده تأثیر می گذارد.

بسترهای نرم افزاری مبتنی بر خروجی از مدل های دیگر از طریق استدلال تفکر یا تولید داده های مصنوعی ممکن است از یک سیستم به سیستم دیگر بدون اطلاع از تعصبات یا رفتارها منتقل شوند.

به منظور جلوگیری از چنین “آلودگی رفتاری ، ، ممکن است لازم باشد که نظارت دقیق تری بر شرکتهای هوش مصنوعی (اثبات کننده ها) اعمال کند و اقدامات ایمنی را فراتر از فیلتر کردن محتوای ساده اتخاذ کند.

همانطور که مدل ها بیشتر و بیشتر می آموزند ، یکپارچگی داده های آموزشی کاملاً ضروری است.

دنبال کردن راهنمای تام در Google News در انتشارات خود برای به دست آوردن اخبار روزانه ما ، چگونه TOS و بررسی ها. حتماً روی دکمه ردیابی کلیک کنید.

بیشتر از راهنمای تام

بازگشت به لپ تاپ ها

نشان دادن بیشتر

پروین میرمیرانجولای 31, 2025آخرین به روز رسانی: جولای 31, 2025

0 2,687 خواندن این مطلب 3 دقیقه زمان میبرد

مدل های هوش مصنوعی می توانند مخفیانه بر یکدیگر تأثیر بگذارند – کار جدید انتقال رفتار مخفی را نشان می دهد

“یادگیری ناخودآگاه” چگونه کار می کند؟

پروین میرمیران

دیدگاهتان را بنویسید لغو پاسخ

“چیزی تغییر کرده است؟” Ripple CTO ممتاز اتهامات سوء استفاده از KelpDAO را بررسی می کند – U.Today

Viral TikTok چراغ قوه Samsung Galaxy S26 را در حال سوختن در کیسه زباله نشان می دهد – ما آن را آزمایش کردیم

XRP Exit Exchange با 34.9 میلیون دلار در ششمین خروجی بزرگ سال – U.Today

همه چیز جدید در Apple TV در می 2026

از ChatGPT، Gemini و Claude پرسیدم که چگونه حرکات کشتی را انجام دهند و آنها ذهن من را به هم زدند.

تمام نمایش های نتفلیکس تا کنون در سال 2026 لغو شده اند

“در این سطح، این اعداد برای ما گیمرها نیست”: چرا ممکن است مانیتورهای بازی 720 هرتزی بیش از حد ارزیابی شوند؟

5 بهترین فیلم Prime Video که باید قبل از اکران در آوریل 2026 تماشا کنید

پاک کردن 7-0: من ChatGPT-5.5 و Claude 4.7 را در 7 آزمایش غیرممکن قرار دادم – و نتایج مرا شوکه کرد

اپل این 5 ابزار مخفی بهره وری را در iOS 26 دفن کرد