تست های Chatgpt-5 و Grook Beats Grook-for-Time.

دنیای هوش مصنوعی رقابتی است. از لحاظ تئوریکی ، بیشتر مدل های بزرگ هوش مصنوعی که می شنوید در سطح مشابهی قرار دارند. همه آنها بسته ها و ویژگی های کاملاً مشابهی را ارائه می دهند که تفاوت کمی در سطح دارند.
با این حال ، وقتی کمی عمیق تر حفر می کنید ، همه آنها مقیاس دارند. مدل های AI به طور مداوم مورد آزمایش و مقایسه قرار می گیرند. اینها می تواند آزمایش هوش هیجانی ، قابلیت های برنامه نویسی ، مهارت های نوشتن و حتی تست های منطقی پردازش باشد.
این مکان ، در دنیای حاشیه های کوچک ، این مدل ها این فرصت را دارند که به صدر بروند. طی چند ماه گذشته ، دوقلوهای گوگل در بیشتر این تست ها حاکم بودند و سپس با یک به روزرسانی گامی برداشتند که با Gok Gemini Xai مطابقت داشته باشد.
اکنون ، GPT-5 در اینجا است. آلتمن و تیمش بیش از حد به مدت ماه ها به عنوان یک صنعت تعریف کننده به روزرسانی. منظورم این است که اکنون درست است ، آیا واقعاً درست است؟
در ابتدا Openai مقایسه خود را نشان داد. او آنچه را که همه انتظار دارند نشان داد: ارتقاء بزرگی در هر زمینه. همانطور که Verge گزارش داد ، گرافیک ها دقیقاً صحیح نبودند.
بله ، اعداد درست بودند ، اما گرافیک میله استفاده شده Openai را نشان می داد که گویی آنها برای مایل حرکت می کنند. اعداد به سرنخ جزئی نزدیک بودند.
اکنون ، عمومی GPT-5 از معیارهای خارجی به طور جداگانه از Openai گرفته می شود. او واقعاً اینگونه گلزنی کرد.
نحوه کسب GPT-5 در تست های مقایسه
لجن
این آزمایشات ممکن است در ارزیابی ها تغییر کند. مدل های هوش مصنوعی ممکن است شامل سؤالات چند گزینه ای ، حل پازل یا تجزیه و تحلیل تنظیمات در پشت صحنه باشد.
Vellum ، یک شرکت مقایسه AI ، مدل ها را در طیف گسترده ای از زمینه ها آزمایش می کند. در جدول نمره LLM شرکت ، GPT-5 برای استدلال در صدر است (زیست شناسی ، فیزیک و درک شیمی) ، Gok 4 فقط زیر 2 ٪ است و 3 ٪ از جمینی عقب مانده است.
GPT-5 همچنین با دو مدل OpenAI به جدول توانایی ریاضیات دبیرستان منجر می شود. Grook 4 از توانایی برنامه نویسی دوم بود (اما فقط 0.1 ٪).
با این حال ، در تست های استدلال سازگار (چقدر مدل سازگار با مفاهیم جدید به جای تکیه بر الگوهای قبلاً آموخته شده) ، هیچ مهارتی ناشی از کلود انسان شناسی وجود ندارد.
تحلیل مصنوعی

یکی دیگر از مقایسه هوش مصنوعی محبوب از تجزیه و تحلیل مصنوعی است. مدل های تست در معیارهای مهم مانند صفحه رتبه بندی ، اطلاعات ، قیمت ، عملکرد و سرعت.
در این روش تست ، GPT-5 دو امتیاز اول را با مدل های تلاش بالا و تلاش متوسط به دست می آورد. GPT-5 با بیش از Grook 4 برای Model Intelligence 69 امتیاز کسب کرد (Grok 4 68 امتیاز کسب کرد).
لامنا
Lmarena مدل ها را در طیف گسترده ای از دسته ها آزمایش می کند. آنها بر توانایی مدل در ایجاد متن ، کد ، تصاویر ، فیلم و موارد دیگر تمرکز می کنند.
این رتبه از ترکیبی از تست های عمومی و در خانه است. GPT-5 ، متن ، کدگذاری و ورودی های بصری برای درک و پردازش توانایی درک و پردازش.
GPT-5 همچنین مدل شماره یک هوش مصنوعی در عرصه شرکت بود. این در صدها مدل برنامه نویسی ، ریاضیات ، نوشتن خلاق ، تدریس پیگیری و موارد دیگر رقابت می کند.
GPT-5 منجر به همه این دسته ها در تست های این شرکت شده و در موقعیت های زیر ، کلود و جمینی های انسان شناسی را شکست داده است.
بنزین

این یکی از تست های شناخته شده بهتر برای هوش مصنوعی است. LiveBench شامل 21 کار مختلف در 7 دسته است. هر مشکلی که پرسیده می شود پاسخ های عینی قابل اثبات دارد. این خطرات تغییرپذیری را با پاسخ های واضح لازم از بین می برد.
GPT-5 در حال حاضر سه امتیاز برتر در جدول رهبری را از طریق نسخه های بالا ، متوسط و پایین کسب می کند. GPT-5 High بالاترین امتیاز را در استدلال ، برنامه نویسی و برنامه نویسی عامل داشت. او همچنین رهبری مهمی در ریاضیات و زبان ایجاد کرد.
نوار کوچک
در حالی که منجر به راه اندازی GPT-5 شد ، این به روزرسانی شایعه شد که اولین مدل هوش مصنوعی در Simplebench است که خط پایه انسان را شکست می دهد.
این یک معیار متن چند انتخابی برای هوش مصنوعی است. از افراد دارای سطح دبیرستان بیش از 200 سؤال در مورد استدلال مکانی ، هوش اجتماعی و سؤالات تقلب پرسیده شد.
هیچ مدل هوش مصنوعی در این آزمون موفق به عبور از میانگین انسان نشده است. در مورد GPT-5 چطور؟ نه تنها 83.7 ٪ میانگین انسان را شکست داد ، بلکه پشت Gemini 2.5 Pro ، Gok 4 و Two Claude 4 قرار گرفت.
آیا GPT-5 در بلع زندگی می کند؟
ما هنوز در آغاز زندگی GPT-5 هستیم. طبق این آزمایشات اولیه ، آخرین به روزرسانی Openai این اتهام را در اکثر زمینه ها پیشگام می کند. با این حال ، هنگامی که جداول نمره در صدر قرار دارد ، لازم به ذکر است که فقط با یک حاشیه کوچک است.
در بیشتر مناطق ، GPT-5 به درصد کمی منتهی می شود و در بعضی موارد وقتی همه عوامل در نظر گرفته می شوند ، برنده می شود. این لزوماً به معنای این نیست که در هر صورت بهترین گزینه است ، اما به طور کلی بهترین است.
تست های مقایسه ای زیادی در مدل وجود دارد که باید آزمایش شود. برای چند ماه آینده ، خواهیم دید که چگونه GPT-5 در طیف گسترده ای از مهارت ها و تست ها در برابر رقابت جمع می شود.
با این حال ، در حال حاضر ، به نظر می رسد GPT-5 در مناطقی که GPT-5 بزرگترین به روزرسانی ها را می بیند ، رهبری دارد. این شامل نوشتن خلاق ، برنامه نویسی و سوالات مبتنی بر سلامتی است.
بیشتر از راهنمای تام
بازگشت به لپ تاپ ها



