تست های Chatgpt-5 و Grook Beats Grook-for-Time.

پروین میرمیرانآگوست 12, 2025آخرین به روز رسانی: آگوست 12, 2025

2,698 خواندن این مطلب 4 دقیقه زمان میبرد

تست های Chatgpt-5 و Grook Beats Grook-for-Time.

دنیای هوش مصنوعی رقابتی است. از لحاظ تئوریکی ، بیشتر مدل های بزرگ هوش مصنوعی که می شنوید در سطح مشابهی قرار دارند. همه آنها بسته ها و ویژگی های کاملاً مشابهی را ارائه می دهند که تفاوت کمی در سطح دارند.

با این حال ، وقتی کمی عمیق تر حفر می کنید ، همه آنها مقیاس دارند. مدل های AI به طور مداوم مورد آزمایش و مقایسه قرار می گیرند. اینها می تواند آزمایش هوش هیجانی ، قابلیت های برنامه نویسی ، مهارت های نوشتن و حتی تست های منطقی پردازش باشد.

این مکان ، در دنیای حاشیه های کوچک ، این مدل ها این فرصت را دارند که به صدر بروند. طی چند ماه گذشته ، دوقلوهای گوگل در بیشتر این تست ها حاکم بودند و سپس با یک به روزرسانی گامی برداشتند که با Gok Gemini Xai مطابقت داشته باشد.

اکنون ، GPT-5 در اینجا است. آلتمن و تیمش بیش از حد به مدت ماه ها به عنوان یک صنعت تعریف کننده به روزرسانی. منظورم این است که اکنون درست است ، آیا واقعاً درست است؟

(وام تصویر: OpenAi)

در ابتدا Openai مقایسه خود را نشان داد. او آنچه را که همه انتظار دارند نشان داد: ارتقاء بزرگی در هر زمینه. همانطور که Verge گزارش داد ، گرافیک ها دقیقاً صحیح نبودند.

بله ، اعداد درست بودند ، اما گرافیک میله استفاده شده Openai را نشان می داد که گویی آنها برای مایل حرکت می کنند. اعداد به سرنخ جزئی نزدیک بودند.

اکنون ، عمومی GPT-5 از معیارهای خارجی به طور جداگانه از Openai گرفته می شود. او واقعاً اینگونه گلزنی کرد.

نحوه کسب GPT-5 در تست های مقایسه

لجن

این آزمایشات ممکن است در ارزیابی ها تغییر کند. مدل های هوش مصنوعی ممکن است شامل سؤالات چند گزینه ای ، حل پازل یا تجزیه و تحلیل تنظیمات در پشت صحنه باشد.

Vellum ، یک شرکت مقایسه AI ، مدل ها را در طیف گسترده ای از زمینه ها آزمایش می کند. در جدول نمره LLM شرکت ، GPT-5 برای استدلال در صدر است (زیست شناسی ، فیزیک و درک شیمی) ، Gok 4 فقط زیر 2 ٪ است و 3 ٪ از جمینی عقب مانده است.

GPT-5 همچنین با دو مدل OpenAI به جدول توانایی ریاضیات دبیرستان منجر می شود. Grook 4 از توانایی برنامه نویسی دوم بود (اما فقط 0.1 ٪).

با این حال ، در تست های استدلال سازگار (چقدر مدل سازگار با مفاهیم جدید به جای تکیه بر الگوهای قبلاً آموخته شده) ، هیچ مهارتی ناشی از کلود انسان شناسی وجود ندارد.

تحلیل مصنوعی

گرافیکی که GPT-5 را در تست ها نشان می دهد

(وام نقاشی: تجزیه و تحلیل مصنوعی)

یکی دیگر از مقایسه هوش مصنوعی محبوب از تجزیه و تحلیل مصنوعی است. مدل های تست در معیارهای مهم مانند صفحه رتبه بندی ، اطلاعات ، قیمت ، عملکرد و سرعت.

در این روش تست ، GPT-5 دو امتیاز اول را با مدل های تلاش بالا و تلاش متوسط به دست می آورد. GPT-5 با بیش از Grook 4 برای Model Intelligence 69 امتیاز کسب کرد (Grok 4 68 امتیاز کسب کرد).

لامنا

Lmarena مدل ها را در طیف گسترده ای از دسته ها آزمایش می کند. آنها بر توانایی مدل در ایجاد متن ، کد ، تصاویر ، فیلم و موارد دیگر تمرکز می کنند.

این رتبه از ترکیبی از تست های عمومی و در خانه است. GPT-5 ، متن ، کدگذاری و ورودی های بصری برای درک و پردازش توانایی درک و پردازش.

GPT-5 همچنین مدل شماره یک هوش مصنوعی در عرصه شرکت بود. این در صدها مدل برنامه نویسی ، ریاضیات ، نوشتن خلاق ، تدریس پیگیری و موارد دیگر رقابت می کند.

GPT-5 منجر به همه این دسته ها در تست های این شرکت شده و در موقعیت های زیر ، کلود و جمینی های انسان شناسی را شکست داده است.

بنزین

chatgpt-5 با آرم OpenAi در پس زمینه

(وام تصویر: آینده)

این یکی از تست های شناخته شده بهتر برای هوش مصنوعی است. LiveBench شامل 21 کار مختلف در 7 دسته است. هر مشکلی که پرسیده می شود پاسخ های عینی قابل اثبات دارد. این خطرات تغییرپذیری را با پاسخ های واضح لازم از بین می برد.

GPT-5 در حال حاضر سه امتیاز برتر در جدول رهبری را از طریق نسخه های بالا ، متوسط و پایین کسب می کند. GPT-5 High بالاترین امتیاز را در استدلال ، برنامه نویسی و برنامه نویسی عامل داشت. او همچنین رهبری مهمی در ریاضیات و زبان ایجاد کرد.

نوار کوچک

در حالی که منجر به راه اندازی GPT-5 شد ، این به روزرسانی شایعه شد که اولین مدل هوش مصنوعی در Simplebench است که خط پایه انسان را شکست می دهد.

این یک معیار متن چند انتخابی برای هوش مصنوعی است. از افراد دارای سطح دبیرستان بیش از 200 سؤال در مورد استدلال مکانی ، هوش اجتماعی و سؤالات تقلب پرسیده شد.

هیچ مدل هوش مصنوعی در این آزمون موفق به عبور از میانگین انسان نشده است. در مورد GPT-5 چطور؟ نه تنها 83.7 ٪ میانگین انسان را شکست داد ، بلکه پشت Gemini 2.5 Pro ، Gok 4 و Two Claude 4 قرار گرفت.

آیا GPT-5 در بلع زندگی می کند؟

ما هنوز در آغاز زندگی GPT-5 هستیم. طبق این آزمایشات اولیه ، آخرین به روزرسانی Openai این اتهام را در اکثر زمینه ها پیشگام می کند. با این حال ، هنگامی که جداول نمره در صدر قرار دارد ، لازم به ذکر است که فقط با یک حاشیه کوچک است.

در بیشتر مناطق ، GPT-5 به درصد کمی منتهی می شود و در بعضی موارد وقتی همه عوامل در نظر گرفته می شوند ، برنده می شود. این لزوماً به معنای این نیست که در هر صورت بهترین گزینه است ، اما به طور کلی بهترین است.

تست های مقایسه ای زیادی در مدل وجود دارد که باید آزمایش شود. برای چند ماه آینده ، خواهیم دید که چگونه GPT-5 در طیف گسترده ای از مهارت ها و تست ها در برابر رقابت جمع می شود.

با این حال ، در حال حاضر ، به نظر می رسد GPT-5 در مناطقی که GPT-5 بزرگترین به روزرسانی ها را می بیند ، رهبری دارد. این شامل نوشتن خلاق ، برنامه نویسی و سوالات مبتنی بر سلامتی است.

بیشتر از راهنمای تام

بازگشت به لپ تاپ ها

نشان دادن بیشتر

پروین میرمیرانآگوست 12, 2025آخرین به روز رسانی: آگوست 12, 2025

2,698 خواندن این مطلب 4 دقیقه زمان میبرد

تست های Chatgpt-5 و Grook Beats Grook-for-Time.

پروین میرمیران

من سعی کردم از MyFanCam Galaxy Z Fold 8 روی سگ هایم استفاده کنم اما به دیوار اصلی برخورد کردم

از فصل 5: هر آنچه که تاکنون می دانیم

من در آمازون به دنبال کتاب های نوشته شده با هوش مصنوعی گشتم و پیدا کردن آنها بسیار سخت تر از آن چیزی بود که انتظار داشتم

Dell XPS 13 در مقابل MacBook Neo: کدام لپ تاپ 699 دلاری برای شما مناسب است؟

10 بهترین فیلم و سریال نتفلیکس در تابستان 2026 (تاکنون) به گفته بینندگان – شماره 1 یک تریلر غافلگیرکننده و مرموز است که برای تماشای زیاد ساخته شده است.

iOS 27 سرانجام آزاردهنده ترین راه حل آیفون را که همه ما استفاده کرده ایم برطرف می کند

5 فیلم دست کم گرفته شده در Paramount+ که باید به لیست تماشای خود اضافه کنید – از جمله فیلم پرفروش 150 میلیون دلاری که شایسته شکست نبود

Shiba Inu: Shytoshi Kusama 74 Days of Silence را در X جشن می گیرد، آیا Break به زودی در راه است؟ – یو.امروز

Shiba Inu Netflow با 69 میلیارد SHIB از منطقه صعودی خارج شد اما قیمت چیز دیگری می گوید – U.Today

چرا وقتی هوا سرد است چراغ فشار لاستیک شما روشن می شود؟