این مطالعه نشان می دهد که chatgpt-5 حدود 1 بار اشتباه است-دلیل این امر

پروین میرمیرانسپتامبر 23, 2025آخرین به روز رسانی: سپتامبر 23, 2025

2,668 خواندن این مطلب 3 دقیقه زمان میبرد

این مطالعه نشان می دهد که chatgpt-5 حدود 1 بار اشتباه است-دلیل این امر

من روز دیگر با چتگپ طوفان مغزی شدم و ناگهان او وارد این داستان طولانی و خیالی شد که هیچ ارتباطی با سؤالات من نداشت. آنقدر مسخره بود که باعث خندیدن من شد. اخیراً ، من هرگز چنین اشتباهاتی را در درخواست های متن ندیده ام ، اما هنوز هم آنها را به طور مرتب با ایجاد تصاویر می بینم.

این لحظات تصادفی ، که در آن یک چت بابات از کار منحرف شده است ، به عنوان توهم شناخته می شود. نکته عجیب این است که قایق چت بیشتر از جواب اشتباه اطمینان دارد. یکی از بزرگترین نقاط ضعف دستیاران هوش مصنوعی امروز. با این حال ، یک مطالعه جدید از OpenAi استدلال می کند که این خرابی ها به طور تصادفی نیستند ، اما این یک نتیجه مستقیم از نحوه آموزش و ارزیابی مدل ها است.

چرا چکمه های گپ همچنان پیش بینی می کنند که چه موقع نباید این کار را انجام دهند؟

(وام تصویر: Shutterstock)

این تحقیق به یک مسئله ساختاری اشاره دارد که باعث توهم می شود. در اصل ، این مشکل ناشی از معیارها و جداول رهبری است که مدل های هوش مصنوعی را لیست می کند و پاسخ های مطمئن را پاداش می دهد.

به عبارت دیگر ، هنگامی که یک قایق چت می گوید Orum من نمی دانم “، او در آزمایش مجازات می شود. این بدان معنی است که حتی اگر آنها مطمئن نباشند که مدل ها صحیح هستند ، همیشه به طور مؤثر تشویق می شوند که جواب دهند.

در عمل ، این باعث می شود دستیار هوش مصنوعی شما بیشتر از پذیرش عدم اطمینان پیش بینی کند. این ممکن است برای سؤالات روزانه بی ضرر باشد. با این حال ، در شرایط پرخطر تر ، از سؤالات پزشکی گرفته تا توصیه های مالی ، این اشتباهات با اعتماد به نفس می تواند به سرعت خطرناک باشد.

به عنوان یک کاربر برق ، بنابراین من همیشه حقیقت را کنترل می کنم و می خواهم منبع را از chatbot مشخص کنم. بعضی اوقات به نظر می رسد که اطلاعات بیش از حد آورده شده است و اگر من یک منبع می خواهم ، قایق گپ “ضبط خوب!” چیزی شبیه به یا چیزی مشابه اعتراف نمی کند که هنوز هم اشتباه است.

مدل های جدید مصون نیستند

تصویر chatgpt-5 روی صفحه کلید

(وام تصویر: تصویر ایجاد شده توسط chatgpt ai)

جالب اینجاست که مدلهای استدلال گرا ، مانند مقاله Openai ، O3 و O4-Mini ، در واقع دریافتند که آنها در واقع بیشتر از برخی مدل های قدیمی توهم می شوند. از کجا؟ زیرا آنها به طور کلی ادعاهای بیشتری ایجاد می کنند ، این به معنای شانس اشتباه بودن است.

بنابراین ، اگر یک مدل در استدلال “باهوش تر” باشد ، صادقانه تر درباره آنچه او واقعاً نمی داند صادق نیست.

چه چیزی می تواند این مشکل را حل کند؟

شخص برنامه نویسی در رایانه

(وام تصویر: Shutterstock)

محققان استدلال می كنند كه راه حل این است كه روش خود را برای به ثمر رساندن و مقایسه هوش مصنوعی تغییر دهیم. به جای مجازات مدل ها برای گفتن “من مطمئن نیستم”. با ارزش ترین آزمایشات باید پاسخ های کالیبره شده ، پرچم های عدم اطمینان یا توانایی به تعویق انداختن منابع دیگر را پاداش دهد.

این ممکن است به این معنی باشد که می توان از چت بابات آینده شما بیشتر محافظت کرد ، کمتر “در اینجا جواب است” و بیشتر “حدس می زنم ، اما من مطمئن نیستم.” ممکن است آهسته تر احساس شود ، اما می تواند خطاهای مضر را به میزان قابل توجهی کاهش دهد. برای اثبات اینکه فکر Crtitic ما هنوز هم مهم است.

چرا برای شما مهم است

شخصی که روی صفحه کلید لپ تاپ نوشت

(وام تصویر: حذف)

اگر از Chatbots محبوب مانند Chatgpt ، Gemini ، Claude یا Gok استفاده می کنید ، تقریباً توهم خاصی دارید. این مطالعه نشان می دهد که این کاملاً الگویی از مدل نیست ، اما اشکال آزمایش وجود دارد. این مانند تست بازی است که می تواند دقیق ترین باشد.

برای کاربران ، این بدان معنی است که ما باید کوشا باشیم و به پاسخ های AI به عنوان اولین پیشنهاد فکر کنیم ، نه آخرین کلمه. و برای توسعه دهندگان ، این نشانه زمان تجدید نظر در مورد چگونگی اندازه گیری موفقیت است تا دستیاران آینده هوش مصنوعی به جای انجام کارها کاملاً اشتباه نمی دانند.

دنبال کردن راهنمای تام در Google News وت ما را به عنوان یک منبع ترجیحی اضافه کنید برای به دست آوردن اخبار فعلی ، تجزیه و تحلیل و بررسی در تغذیه خود. حتماً روی دکمه ردیابی کلیک کنید!

بیشتر از راهنمای تام

بازگشت به لپ تاپ ها

نشان دادن بیشتر

پروین میرمیرانسپتامبر 23, 2025آخرین به روز رسانی: سپتامبر 23, 2025

2,668 خواندن این مطلب 3 دقیقه زمان میبرد

این مطالعه نشان می دهد که chatgpt-5 حدود 1 بار اشتباه است-دلیل این امر

چرا چکمه های گپ همچنان پیش بینی می کنند که چه موقع نباید این کار را انجام دهند؟

پروین میرمیران

خطرات قیمت Hyperliquid (HYPE) به بن بست می رسد، سیگنال رشد قیمت XRP پنهان، آیا بیت کوین (BTC) تحت این روند به 80000 دلار می رسد؟ بررسی بازار کریپتو – U.Today

یک راه ساده برای تماشای رایگان NFL Draft 2026 وجود دارد

Shiba Inu شاهد افزایش 88 درصدی در استفاده است، XRP Ledger از آستانه یک میلیارد عبور می کند، BlackRock برای خرید 900 میلیون دلار بیت کوین – U.Today Crypto Digest – U.Today

معامله گر باتجربه پیش بینی می کند بیت کوین می تواند به 500 هزار دلار برسد – U.Today

فراخوان 170000 خودروی جگوار لندرور به دلیل مشکل قطع برق

“ما این کار را به عنوان بخشی از تلاش های مداوم خود برای اداره کارآمدتر شرکت انجام می دهیم”: متا 10 درصد از نیروی کار خود را در میان فشار شدید هوش مصنوعی اخراج می کند.

قیمت بیت کوین (BTC): Fidelity موج بزرگ بعدی را پیش بینی می کند – U.Today

انتخاب من از بهترین معاملات لپ تاپ و تبلت در فروش عظیم لنوو

نحوه تماشای NFL Draft 2026 به صورت آنلاین به صورت رایگان – محل پخش آنلاین، زمان شروع، انتخاب سفارش

دلیلی وجود دارد که فورد نام شلبی را حذف کرد