من مدل جدید O3-Mini Openai را در آزمون قرار دادم و نتایج تعجب آور است

پروین میرمیران6 فوریه 2025آخرین به روز رسانی: 6 فوریه 2025

0 2,664 خواندن این مطلب 3 دقیقه زمان میبرد

OpenAI یک مدل استدلال جدید O3-Mini را راه اندازی کرده است ، یک مدل استدلال جدید که همان نوع عملکرد O1 را ارائه می دهد ، اما در برخی از هزینه ها. محصول جدید از بهره وری و سرعت تمجید کرد و به اوج جداول مقایسه جهانی نزدیک شد.

مدل های استدلال اکنون همه عصبانیت و درست هستند. این محصولات هوش مصنوعی به جای تف کردن اولین پاسخ خود ، زمان را برای ارزیابی پاسخ های خود اختصاص می دهند.

این به معنای کمی طولانی تر برای پاسخ است ، اما امیدوارم که این یک پاسخ دقیق تر با توهم صفر باشد.

بنابراین ، آیا همه اعتراض در مورد استدلال معتبر است ، و اگر چنین است ، آیا O3 به ژانر اضافه می کند ، یا یکی از همان چیزهای قدیمی است که در یک روبان جدید روشن پیچیده شده است؟

سه سطح استدلال (یا تلاش) وجود دارد که می توانید برای مدل شناسایی کنید – کم ، متوسط و زیاد.

من تصمیم گرفتم که چند تست O3-Mini را انجام دهم تا ایده ای برای کیفیت ، ارزش و فایده نسخه جدید بدست آورم. طبق معمول ، من از اندازه گیری ها دور ماندم ، زیرا فکر می کنم آنها فقط بخشی از کیفیت داستان را می گویند.

سه سطح استدلال (یا تلاش) وجود دارد که می توانید برای مدل شناسایی کنید – کم ، متوسط و زیاد. من تصمیم گرفتم که فقط بالا و پایین تست کنم تا ایده های عملکرد را در هر دو انتهای طیف بدست آورم.

آزمون 1: آیا حقیقت است یا دروغ؟

درخواست: یک شرکت کننده در بازی تلویزیونی در دو جعبه جلو ایستاده است. جعبه 1 شامل کلیدهای جایزه ستاره یک ماشین جدید است ، جعبه دارای 2 سیب است. دو دوش بازی وجود دارد – یکی همیشه حقیقت را می گوید ، و دیگری همیشه دروغ می گوید – اما او نمی داند کدام یک است. او مجاز است یک سؤال را به یکی از میزبان ها بپرسد تا دریابد که این جایزه کدام جعبه است.

سوال: چگونه می توان تنها سؤال را پرسید و چگونه او می تواند از پاسخ برای انتخاب جعبه مناسب استفاده کند؟

پاسخ: پاسخ باید این باشد که یک میزبان بخواهید – “اگر از من بپرسم کدام جعبه را با کلیدها داشت ، به میزبان دیگر چه می گفتند؟”

تصمیم

مدل O3 با استفاده از استدلال زیاد و پایین ، به راحتی میخکوب شد. در استدلال بالا ، 5424 میلی ثانیه با استفاده از 867 سکه برای پاسخ به طول انجامید. 3157 میلی ثانیه و 231 سکه به عنوان کم طول کشید. کاملاً تفاوت در تلاش.

استدلال ، البته ، صرف نظر از اینكه چه كسی را باید بپرسید ، پاسخ همیشه جعبه اشتباه را نشان می دهد. بنابراین او مجبور است جعبه را در برابر هر آنچه می گوید انتخاب کند.

آزمون 2: سوخت مسابقه

(وام تصویر: Flux/Npowell)

برای این کار ، باید به این موضوع Reddit و اخبار هکر اعتبار بدهم.

درخواست: من بازی Rativizione Rativizione Racing Assetto Corsa Rativizione را بازی می کنم. زمان مقدماتی 2: 04.317 است ، مسابقه 20 دقیقه طول دارد و ماشین در هر تور از 2.73 لیتر استفاده می کند.

سوال: من به شما نیاز دارم تا به من بگویید که چند لیتر سوخت را برای مسابقه خریداری می کنم.

پاسخ: برای اضافه کردن مقداری اضافی اضافی برای امنیت ، به یک جایزه ، 27.3 لیتر نیاز دارید.

تصمیم

برای درست بودن ، استدلال شامل محاسبه تمام زمان مسابقه در عرض چند ثانیه ، تخمین تعداد دور (تقسیم شده به دوره تور کل مسابقه) و مشتق سوخت است. البته ، شما نمی توانید یک تور جزئی انجام دهید.

این بار مدل O3 در استدلال پایین – ضعیف ترین تنظیم – 5647 ms و 328 سکه پاسخ درستی دریافت کردند. با کمال تعجب ، او جواب را در قدرتمندترین محیط استدلال بالا اشتباه درک کرد.

بدتر ، اتفاقی افتاد 10.9 ثانیه و سکه های خروجی 1918 برای دریافت یک پاسخ اشتباه وی گفت ، High O3-Mini ، 26.3 لیتر حدود 27.

Deepseek R1 برای قرار دادن آن در چشم انداز ، برای اولین بار در 29 ثانیه جواب درست را دریافت کرد. حتی مدل کوچک QWEN2.5: 7B من به صورت محلی روی رایانه خانگی خود دویدم ، در 15.8 ثانیه یک پاسخ نزدیک قابل اعتماد دریافت کردم. او گفت Qwen 2.5 7B ، 27.03 لیتر یا “حدود 27 – 28 لیتر”.

این یک کاستی است که بگوییم من پوچ هستم.

خط پایین

آرم Openai روی تلفن نشسته روی صفحه کلید لپ تاپ

(وام تصویر: Shutterstock)

این به دور از یک آزمایش علمی است ، اما برای تصمیمات ما ، نمونه ای جالب از این است که هنگام تکیه بر مدلهای So -Called “آخرین فناوری” هوش مصنوعی ، چقدر باید مراقب باشیم.

بله ، یک نمونه کوچک از یک احمق ، اما فقط نشان می دهد که مشکل واقعی وضعیت فعلی توسعه هوش مصنوعی چیست. Hype با شجاعت در مورد شبکه و ACE صحبت می کند ، و مشخص است که ما حتی از ابتدایی ترین سؤالات نمی توانیم 100 ٪ ایمنی داشته باشیم.

نمونه دیگر در فاجعه توت فرنگی چند Rs ، بسیاری از LLM ها در ابتدا اشتباه هستند. هوش مصنوعی باید تعجب کند که چه مدت طول می کشد تا یک رویداد جدی در سراسر جهان ایجاد کند ، که ناچیز یا ناچیز نیست. زمان خواهد گفت