نشت آموزش Claude AI وب سایت های قابل اعتماد و ممنوعه را نشان می دهد – در اینجا معنی برای شما است

یک سند داخلی در حال فاش شده ، منابع داده ای را برای استفاده از دستیار هوش مصنوعی انسان شناسی کلود نشان داد و نگرانی های جدیدی را در مورد چگونگی شکل گیری قدرتمندترین مدل های امروز در پشت صحنه ایجاد کرد.
در سندی که توسط Surge AI ، یک شرکت برچسب زدن به داده های شخص ثالث ایجاد شده است ، به Claude کمک می کند تا نحوه تولید پاسخ های با کیفیت بالاتر را یاد بگیرد ، در حالی که لیستی از وب سایت هایی که در آن کنسرت ها دستور داده می شوند از آن استفاده کنند (و از آن جلوگیری می کنند).
جدول الکترونیکی در یک پوشه Open Google Drive ذخیره شده و تا زمانی که Business Insider علامت گذاری نشود ، برای همه باز مانده است.
نشت چه فاش کرد
جدول الکترونیکی حاوی بیش از 120 سایت “لیست سفید” است ، به عنوان مثال ::
- HARVARD.EDU
- بلومبرگ
- کلینیک لباس شنا
- مؤسسات بهداشت ملی (NIH)
این منابع قابل اعتماد بودند که کارگران هوش مصنوعی می توانند در طی درخواست ها و پاسخ های کلود در مرحله یادگیری تقویت (معروف به RLHF) ترسیم کنند.
با این حال ، بیش از 50 سایت “لیست سیاه” که در این سند ذکر شده است. به کارگران گفته شد که از وضوح خودداری کنند. این لیست شامل ناشران و سیستم عامل های بزرگی از این دست است:
- نیویورک تایمز
- رنگ قرمز
- وال استریت ژورنال
- دانشگاه استنفورد
- wiley.com
چرا این سایت ها تبعید می شوند؟ اگرچه ما مطمئناً نمی دانیم ، احتمالاً به دلیل نگرانی های کارشناسی یا حق چاپ ، به ویژه با توجه به آخرین مورد Reddit در مورد سوء استفاده از داده های ادعا شده علیه انسان شناسی است.
چرا مهم

اگرچه از داده ها برای تنظیم دقیق استفاده می شود (نه قبل از آموزش) ، نشت سؤالات جدی در مورد مدیریت داده ها و خطر قانونی در صنعت هوش مصنوعی را نشان می دهد.
کارشناسان هشدار می دهند که دادگاه ها نمی توانند ضمن ارزیابی تخلفات احتمالی حق چاپ ، بین داده های آموزش و تنظیم دقیق ترسیم کنند.
Surge AI پس از گزارش نشت ، به سرعت سند را آفلاین دریافت کرد.
در ضمن ، انسان شناسی به Business Insider در مورد لیست فروشنده به طور مستقل ایجاد نشده است.
کنترل داده ها در دوره AI

برای اولین بار ، یک فروشنده AI از مواد آموزشی حساس سوء استفاده نکرد. مقیاس هوش مصنوعی ، یکی دیگر از بازیکنان مهم در منطقه برچسب زدن داده ، در سالهای گذشته با نشت مشابهی روبرو شد.
اما شرط بندی اکنون بالاتر است. Anthropic دارای 60 میلیارد دلار ارزش است و کلود به عنوان بهترین رقیب در Chatgpt ظاهر می شود ، هر قدم اشتباه را دعوت می کند.
این فعالیت بر آسیب پذیری فزاینده ای در اکوسیستم هوش مصنوعی تأکید دارد زیرا شرکت ها به آموزش کنترل شده توسط انسان اطمینان بیشتری دارند ، اما همچنین به شرکت های شخص ثالث بستگی دارند و همیشه ایمنی یا نظارت ضد هوا ندارند.
برای شما چه معنی دارد

کاربران هوش مصنوعی باید درک کنند که کیفیت ، دقت و حتی اساس اخلاقی پاسخ چکمه های چت عمیقاً به داده هایی که در آن آموزش داده شده است و چه چیزی تصمیم می گیرند در چه مواردی هستند یا در چه مواردی هستند.
این نشت نشان می دهد که حتی مدلهای سطح بالا مانند کلود می توانند تحت تأثیر تصمیمات پشت صحنه گرفته شده توسط فروشندگان حزب سوم قرار بگیرند.
هنگامی که این گزینه ها شامل استانداردهای متناقض یا منابع نامشخص است ، ما به سؤالات جدی در مورد تعصب ، اعتماد و پاسخگویی در هوش مصنوعی اعتماد می کنیم ، که هر روز به آن اعتماد داریم.
دور کردن
این نشت نمایی است که چگونه شرکت های بزرگ AI مدل های خود را شکل می دهند و افرادی که روند کار را راهنمایی می کنند.
هرچه هوش مصنوعی بیشتر در وسایل نقلیه روزانه تعبیه شود ، اعتماد به شفافیت می رود.
وقتی صحبت از این عامل می شود ، به نظر می رسد مسیری طولانی وجود دارد.
بیشتر از راهنمای تام
بازگشت به لپ تاپ ها



