من مدل جدید O3-Mini رایگان Chatgpt را با 7 درخواست برای رتبه بندی حل مسئله و قابلیت های استدلال-OLUMSTE آزمایش کردم
Openai's Model O3-Mini بخشی از لایه رایگان ChatGPT است که به کاربران امکان می دهد از پیشرفت قابل توجهی در هوش مصنوعی برای کارهایی که نیاز به استدلال پیچیده و حل مسئله دارند ، بهره مند شوند.
مدل O3-Mini ، ساخته شده بر روی بنیادی که توسط پیشینیان خود ساخته شده است ، توانایی های پیشرفته ای را ارائه می دهد که آن را متمایز می کند.
مدل O3 برای کارهایی که نیاز به استدلال منطقی دارند مناسب است. در اصل ، یک رویکرد “زنجیره تفکر ویژه” از طریق کارهای O3-Mini دارای برنامه ریزی و استدلال است ، سپس مراحل واسطه ای را برای کمک به حل مشکلات انجام می دهد. این روش منجر به خروجی های دقیق تر و قابل اعتماد تر ، به ویژه در سناریوهای پیچیده می شود.
O3-Mini یک نسخه آیرودینامیکی از مدل O3 است که محدودیت نسبت بالاتری و تأخیر پایین تر دارد ، که یک انتخاب قانع کننده برای کارهای کدگذاری ، ریشه و حل مسئله منطقی است. این مدل O1-Mini را در رابط ChatGPT جایگزین می کند و عملکرد رایگان را برای کاربران فراهم می کند.
این دسترسی به مخاطبان گسترده تر اجازه می دهد تا از عملکرد پیشرفته مدل بهره مند شوند.
O3 2727 ELO را در CodeForces کسب می کند ، که در رده بندی جهانی در رتبه 175 قرار دارد. این بهتر از 99.9 پوند از افراد در وب سایت است (در حال حاضر تمایل به بسیار بالاتر از حد متوسط). pic.twitter.com/vgxeq525nl20 دسامبر 2024
برنامه نویسی و ریاضیات به روز شده است
O3 صلاحیت فوق العاده ای را در کارهای برنامه نویسی نشان داده است. CodeFores 2،727 امتیاز ELO را در پلت فرم برنامه نویسی رقابتی دریافت کرد و آن را در سطح جهانی در بین 2500 برنامه نویس برتر قرار داد. علاوه بر این ، SWE-BENCH 71.7 ٪ امتیاز در مقایسه تأیید شده دریافت کرد ، که توانایی حل مشکلات نرم افزاری دنیای واقعی را که عملکرد بهتر از سلف O1 خود را دارند ، که 48.9 ٪ به دست آورد ، ارزیابی می کند.
علاوه بر این ، O3 برای معیارهای علمی و ریاضی مناسب است ، GPQA در معیار الماس 87.7 ٪ به دست می آورد ، که شامل سؤالات علمی در سطح متخصص آنلاین است. علاوه بر این ، در جامعه انتزاع و استدلال برای معیار هوش عمومی مصنوعی (ARC-AGI) ، O3 به سه برابر دقت O1 رسیده است ، که توانایی های استدلال پیشرفته خود را به نمایش گذاشته است.
مایل به امتحان کردن با o3-mini
برای کسانی که به دنبال راه هایی برای دیدن چگونگی درخشش مدل TheO3-Mini هستند ، در نظر بگیرید که سؤالات زیر یا نمایش داده شدگان مشابه را که کد نویسی ، ریاضیات و کارهای STEM را کشف می کنند ، در نظر بگیرید. نگاهی بیندازید که وقتی مدل O3-Mini را با هفت تغییر در آزمون قرار دادم چه اتفاقی افتاد.
1. مبارزات برنامه نویسی
سریع: “یک مختصر Python بنویسید که یک سیستم بانکی اساسی را با توابع برای سرمایه گذاری ، برداشت و کنترل تعادل شبیه سازی می کند.”
این درخواست برای آزمایش O3-Mine مناسب است ، زیرا بسیاری از جنبه های برنامه نویسی از OOP و ساختارهای کنترل را برای تأیید ورودی و پردازش خطا ترکیب می کند. این مدل برای تولید یک نرم افزار کامل ، کاربردی و به خوبی ساختار یافته ، یک اندازه گیری محکم از قابلیت های کدگذاری کد.
این درخواست نه تنها به یک آزمون ایجاد کد بلکه به عنوان یک ابزار یادگیری نیز خدمت می کند. این یک نمونه بارز را ارائه می دهد که می تواند به کاربران کمک کند تا چگونه عملکردهای اساسی بانکی را در پایتون طراحی و درک کنند. این هدف دوگانه از یک مورد آزمایشی و نمونه ای از آموزش ، درک و استفاده از آنها را برای حتی کاربران معمولی مفید و ساده می کند.
5. شواهد ریاضی
سریع: “قضیه فیثاغوری را با استفاده از یک رویکرد هندسی اثبات کنید.”
این درخواست به ترکیبی از رتبه بندی منطقی ، کوشش ریاضی ، ارتباطات خالص و ادغام انواع مختلف استدلال نیاز دارد. این توانایی مدل O3-Mini را برای پرداختن به کارهای پیچیده و همه کاره نشان می دهد ، زیرا با موفقیت یک شواهد هندسی واضح و دقیق از قضیه فیثاغور را تولید می کند.
3 توضیحات علمی
سریع: “فرایند فتوسنتز را با جزئیات توضیح دهید.”
توانایی مدل O3-Mini در یادآوری ، سازماندهی و بیان اینکه فرآیند چند مرحله ای در این درخواست آشکار شده است.
پاسخ منطقی ، پاسخ مفصل به وضوح ارائه شد و به طور مداوم جریان یافت. این درخواست توانایی مدل را برای ادغام دانش علمی عمیق و مفاهیم بین رشته ای در توضیحی هماهنگ نشان می دهد.
4. تحلیل تاریخی
سریع: “علل و تأثیرات انقلاب فرانسه را تجزیه و تحلیل کنید.”
این درخواست نیاز به یک درخواست ایده آل برای آزمایش ادغام دانش تاریخی بین رشته ای ، ادغام نوشتار ساختار یافته و سازگار و تجزیه و تحلیل انتقادی روابط پیچیده علت و معلولی دارد تا مدل O3-Mini را به درستی ، دقیق و آموزشی آزمایش کند. محتوا در مورد یک موضوع تاریخی همه کاره.
این درخواست نشان می دهد که چگونه می توان از مدل O3-Mini برای اهداف آموزشی یا آموزشی استفاده کرد.
5. انتقاد ادبی
سریع: “تجزیه و تحلیل انتقادی از مضامین جنون و انتقام شکسپیر ارائه دهید.”
این امر به یک تحلیل عمیق و انتقادی از هملت نیاز دارد ، که بر مضامین همه کاره مانند درخواست ، جنون و انتقام متمرکز است. این عناصر مختلف متن را برای تولید یک تحلیل روشنگری با آزمایش توانایی مدل برای ورود به انتقادات ادبی سطح بالا از این مدل ترکیب می کند.
این مدل با موفقیت وظیفه پیچیده دانشگاهی را بر عهده گرفت و یک استدلال ظریف و با پشتیبانی خوب در مورد مضامین پیچیده در ادبیات ایجاد کرد.
6. بحث فلسفی
سریع: “در مورد مفهوم سودگرایی و تأثیرات آن بر اخلاق مدرن بحث کنید.”
با پرسیدن هر دو بحث در مورد سودمندی به عنوان یک مفهوم و تأثیرات بر اخلاق مدرن ، الگوی را وادار می کند تا تئوری های فلسفی تاریخی را با موضوعات اخلاقی معاصر ببندد. این ظرفیت مدل را برای ترکیب اطلاعات در دوره ها و زمینه های مختلف نشان می دهد.
توانایی استدلال انتزاعی O3-Mini را که مانند این و مانند این مورد نظر است ، آزمایش کنید. این درخواست همچنین بر تجزیه و تحلیل انتقادی مدل ، درک محتوای تاریخی و عمل عملی تأکید دارد – همه آنها برای ایجاد یک پاسخ آموزنده و ظریف در مورد موضوعات اخلاقی پیچیده لازم هستند.
7. برنامه ریزی شهری
سریع: “یک استراتژی یکپارچه برای بهینه سازی حمل و نقل شهری به سرعت در یک مگازیت به سرعت در حال رشد طراحی کنید. برنامه شما باید در مورد جنبه های زیر بحث کند.”
این درخواست به طور مؤثر قابلیت حل مسئله و قابلیت های استدلال پیچیده مدل را نشان می دهد. بازجویی یک راه حل یکپارچه و چند منظوره را بازآفرینی می کند که نشان دهنده مشکلات پیش آمده در سناریوهای دنیای واقعی و در این مورد برنامه ریزی در یک محیط شهری است.
علاوه بر این ، توانایی O3-Mini در درک بسیاری از “قطعات متحرک” ، از جمله علوم محیط زیست ، فناوری و اقتصادی و اجتماعی. اگرچه من فیلمنامه مدل “تفکر” را نشان دادم ، قبل از ارائه یک برنامه دقیق و مرحله ای و منطق در پشت راه حل ، یک پاسخ را با اندیشه پردازش کرد.
آخرین افکار
مدل O3-Mini Openai نشان دهنده پیشرفت قابل توجهی در هوش مصنوعی است و استدلال پیشرفته و قابلیت حل مسئله را در زمینه های مختلف فراهم می کند. ادغام chatgpt در لایه رایگان لایه رایگان ، دسترسی به ابزارهای پیشرفته هوش مصنوعی را دموکراتیک می کند و به کاربران امکان می دهد تا با کارهای پیچیده ای با کارایی بیشتری کنار بیایند. کاربران می توانند با آزمایش مطالبات مختلف ، از تطبیق پذیری و پتانسیل مدل کاملاً قدردانی کنند.