این مطالعه نشان می دهد که chatgpt-5 حدود 1 بار اشتباه است-دلیل این امر

من روز دیگر با چتگپ طوفان مغزی شدم و ناگهان او وارد این داستان طولانی و خیالی شد که هیچ ارتباطی با سؤالات من نداشت. آنقدر مسخره بود که باعث خندیدن من شد. اخیراً ، من هرگز چنین اشتباهاتی را در درخواست های متن ندیده ام ، اما هنوز هم آنها را به طور مرتب با ایجاد تصاویر می بینم.
این لحظات تصادفی ، که در آن یک چت بابات از کار منحرف شده است ، به عنوان توهم شناخته می شود. نکته عجیب این است که قایق چت بیشتر از جواب اشتباه اطمینان دارد. یکی از بزرگترین نقاط ضعف دستیاران هوش مصنوعی امروز. با این حال ، یک مطالعه جدید از OpenAi استدلال می کند که این خرابی ها به طور تصادفی نیستند ، اما این یک نتیجه مستقیم از نحوه آموزش و ارزیابی مدل ها است.
چرا چکمه های گپ همچنان پیش بینی می کنند که چه موقع نباید این کار را انجام دهند؟
این تحقیق به یک مسئله ساختاری اشاره دارد که باعث توهم می شود. در اصل ، این مشکل ناشی از معیارها و جداول رهبری است که مدل های هوش مصنوعی را لیست می کند و پاسخ های مطمئن را پاداش می دهد.
به عبارت دیگر ، هنگامی که یک قایق چت می گوید Orum من نمی دانم “، او در آزمایش مجازات می شود. این بدان معنی است که حتی اگر آنها مطمئن نباشند که مدل ها صحیح هستند ، همیشه به طور مؤثر تشویق می شوند که جواب دهند.
در عمل ، این باعث می شود دستیار هوش مصنوعی شما بیشتر از پذیرش عدم اطمینان پیش بینی کند. این ممکن است برای سؤالات روزانه بی ضرر باشد. با این حال ، در شرایط پرخطر تر ، از سؤالات پزشکی گرفته تا توصیه های مالی ، این اشتباهات با اعتماد به نفس می تواند به سرعت خطرناک باشد.
به عنوان یک کاربر برق ، بنابراین من همیشه حقیقت را کنترل می کنم و می خواهم منبع را از chatbot مشخص کنم. بعضی اوقات به نظر می رسد که اطلاعات بیش از حد آورده شده است و اگر من یک منبع می خواهم ، قایق گپ “ضبط خوب!” چیزی شبیه به یا چیزی مشابه اعتراف نمی کند که هنوز هم اشتباه است.
مدل های جدید مصون نیستند
جالب اینجاست که مدلهای استدلال گرا ، مانند مقاله Openai ، O3 و O4-Mini ، در واقع دریافتند که آنها در واقع بیشتر از برخی مدل های قدیمی توهم می شوند. از کجا؟ زیرا آنها به طور کلی ادعاهای بیشتری ایجاد می کنند ، این به معنای شانس اشتباه بودن است.
بنابراین ، اگر یک مدل در استدلال “باهوش تر” باشد ، صادقانه تر درباره آنچه او واقعاً نمی داند صادق نیست.
چه چیزی می تواند این مشکل را حل کند؟
محققان استدلال می كنند كه راه حل این است كه روش خود را برای به ثمر رساندن و مقایسه هوش مصنوعی تغییر دهیم. به جای مجازات مدل ها برای گفتن “من مطمئن نیستم”. با ارزش ترین آزمایشات باید پاسخ های کالیبره شده ، پرچم های عدم اطمینان یا توانایی به تعویق انداختن منابع دیگر را پاداش دهد.
این ممکن است به این معنی باشد که می توان از چت بابات آینده شما بیشتر محافظت کرد ، کمتر “در اینجا جواب است” و بیشتر “حدس می زنم ، اما من مطمئن نیستم.” ممکن است آهسته تر احساس شود ، اما می تواند خطاهای مضر را به میزان قابل توجهی کاهش دهد. برای اثبات اینکه فکر Crtitic ما هنوز هم مهم است.
چرا برای شما مهم است
اگر از Chatbots محبوب مانند Chatgpt ، Gemini ، Claude یا Gok استفاده می کنید ، تقریباً توهم خاصی دارید. این مطالعه نشان می دهد که این کاملاً الگویی از مدل نیست ، اما اشکال آزمایش وجود دارد. این مانند تست بازی است که می تواند دقیق ترین باشد.
برای کاربران ، این بدان معنی است که ما باید کوشا باشیم و به پاسخ های AI به عنوان اولین پیشنهاد فکر کنیم ، نه آخرین کلمه. و برای توسعه دهندگان ، این نشانه زمان تجدید نظر در مورد چگونگی اندازه گیری موفقیت است تا دستیاران آینده هوش مصنوعی به جای انجام کارها کاملاً اشتباه نمی دانند.
دنبال کردن راهنمای تام در Google News وت ما را به عنوان یک منبع ترجیحی اضافه کنید برای به دست آوردن اخبار فعلی ، تجزیه و تحلیل و بررسی در تغذیه خود. حتماً روی دکمه ردیابی کلیک کنید!
بیشتر از راهنمای تام
بازگشت به لپ تاپ ها



