27 مدل هوش مصنوعی توسط عموم و چتگپ 8 مورد بود.

پروین میرمیرانسپتامبر 17, 2025آخرین به روز رسانی: سپتامبر 17, 2025

2,681 خواندن این مطلب 3 دقیقه زمان میبرد

27 مدل هوش مصنوعی توسط عموم و چتگپ 8 مورد بود.

اگرچه دنیای هوش مصنوعی اغلب می تواند مانند غرب وحشی احساس کند ، اما در پشت صحنه ، تجزیه و تحلیل ، مقایسه و آزمایش بسیار شگفت آور زیادی وجود دارد. نه تنها از خود شرکت ها ، بلکه از گروه هایی که برای ایجاد رتبه های خود ایجاد شده اند.

این گروه ها همه چیز را از توانایی chatbot در تکمیل تست های ریاضی ، ایجاد تصاویر ، نشان دادن استدلال ، ارائه مشاوره پزشکی یا تشخیص اینکه چقدر باهوش هستند فقط از نظر عاطفی آزمایش می کنند ، آزمایش می کنند.

در این تست های مختلف ، مدل ها بالا و پایین می روند ، قدرت و نقاط ضعف خود را در زمینه های مختلف نشان می دهند. به عنوان مثال ، GPT-5 از توانایی Gemini و Claude در سازگاری با مفاهیم جدید سقوط کرد ، اگرچه در استدلال علمی بسیار عالی است.

هر یک از این تست ها چیز جدیدی راجع به مدل های هوش مصنوعی به ما می گوید و یادآوری می کند که کدام ابزار در سناریوهای مختلف بهترین است. با این حال ، اندازه گیری معمولاً از دست رفته است. به سادگی ، کدام مدل های هوش مصنوعی بهترین تجربه کاربر را ارائه می دهند؟

سیستم مرتب سازی Humain

(وام تصویر: Humain)

یک شرکت فناوری مبتنی بر انگلستان ، Produjic ، نقاشی های هوش مصنوعی خود را Humaine تأسیس کرد. وی به جای آزمایش توانایی AI در انجام وظایف ، تجربیات کاربران مختلف تولیدی را در مدل ها آزمایش کرد.

21،352 نفر نه تنها با ارزیابی تجربیات 21،352 نفر با ابزار ، یک برنده کلی پیدا می کنند ، بلکه می توانند نتایج را مطابق با Live ، به زمین (آزمایش شده در انگلستان و ایالات متحده) و طبق اعتقادات سیاسی از بین ببرند.

این شامل لیست های فردی برای موارد زیر است:

انگلستان: گروه های سنی
انگلیس: قومیت
انگلیس: نظر سیاسی
ایالات متحده: گروه های سنی
ایالات متحده: قومیت
دیدگاه سیاسی ایالات متحده

این تیم به هر شرکت کننده این امکان را داد تا در یک مقایسه با دو مدل AI جداگانه ارتباط برقرار کند و از آنها خواسته است تا بازخورد خود را ارائه دهند که کدام مدل در هر تعامل بهتر است.

این یک برنده کلی برای عملکرد است و به صفحه امتیاز منجر شده است ، اما همچنین برنده ارتباطات ، سیالیت و اعتماد و اخلاق و همچنین رتبه های جداگانه برای عملکرد و استدلال اصلی کار است.

نتایج نشان می دهد؟

آرم های chatgpt و دوقلوها

(وام تصویر: آینده)

پس از نظرسنجی ، نه تنها در رده عملکرد عمومی ، بلکه بیشتر زیر مجموعه ها برنده کاملاً واضح بودند. Gemini 2.5-Pro ، آزمایش تقریباً در هر فیلتر به بالا ارائه می شود.

بین 18 تا 34 سال در انگلیس ، رأی دهندگان دموکرات و افراد بالای 55 سال در ایالات متحده اعتراف کردند که Gemini 2.5 Pro بهترین الگوی کلی است. رتبه بندی چیزی در جمینی همه گروه های جمعیتی ، با توجه به برخی از مشکلات امنیتی و اخلاقی که مدل AI در آن دیر است ، یک پیدا کردن کمی طنزآمیز است.

جالب اینجاست که سه مدل Deepseek ، Magistal Le Chat و Grook. Deepseek در ابتدای سال جاری محبوبیت زیادی را مشاهده کرده است که اخیراً از رادار سقوط کرده است. از طرف دیگر ، Le Chat یک قایق گپ کمتر محبوب است ، اما دارای یک فن فن وفادار است.

بنابراین ، در این همه چت های مشهور جهان کجاست؟ یک پیمایش بزرگ هشتم با بالاترین رتبه از مدل GPT-4.1. از همه بدتر ، کلود در رده بندی عمومی دو نسخه یازدهم و دوازدهم قرار دارد.

بنابراین همه اینها به چه معنی است؟

آیا این بدان معنی است که جمینی بهترین چت بابات AI در جهان است؟ آیا این بدان معنی است که شما باید چتگپ را ترک کنید؟ دقیقاً

این نتایج لزوماً منعکس کننده عملکرد این مدل ها نیست. هنگامی که در بسیاری از متریک های دیگر آزمایش شد ، گزینه هایی که معمولاً در بالا مشاهده می کنیم ، چتپ ، جمینی ، کلود و گوک هستند.

با این حال ، این یک دلبستگی مهم به این آزمایشات است. این به درک بهتر هوش مصنوعی از منظر تجربه انسانی کمک می کند. به عنوان مثال ، LE Chat در معیارها نمرات بالایی کسب نمی کند ، اما اغلب به عنوان بهترین گزینه برای تجربه و اعتماد ذکر شده است.

اگرچه در این دور تست ویژه هیچ کار خوبی انجام نمی دهد ، اما برای دوقلوها و گروک عملکرد خوبی دارد. هر دو شرکت غالباً با معیارها امتیاز می گیرند و به این کار ادامه می دهند.

بیشتر از راهنمای تام

بازگشت به لپ تاپ ها

نشان دادن بیشتر

پروین میرمیرانسپتامبر 17, 2025آخرین به روز رسانی: سپتامبر 17, 2025

2,681 خواندن این مطلب 3 دقیقه زمان میبرد

27 مدل هوش مصنوعی توسط عموم و چتگپ 8 مورد بود.

پروین میرمیران

تحول آتی هوش مصنوعی Prime Video می تواند نحوه تصمیم گیری شما برای تماشای بعدی را کاملاً تغییر دهد

احتمالاً XRP امسال به زیر 1 دلار کاهش می یابد: Kalshi – U.Today

ETF های Dogecoin پس از موج ورود کوتاه 345 هزار دلاری دوباره آرام می شوند – U.Today

10 فیلم برتر نتفلیکس – در اینجا فقط 3 فیلمی وجود دارد که قصد دارم این آخر هفته (25 تا 26 ژوئیه) تماشا کنم.

واکنش CZ بایننس به خروج ایلان ماسک از باشگاه تریلیونرها به عنوان «تعریف جدید پیش از ثروت» – U.Today

این یکی از کمیاب ترین مرسدس بنز G کلاس ساخته شده است و به قیمت 143000 دلار فروخته شده است.

بنیانگذار کاردانو سوگیری انتقادی مدیر سرمایه‌گذاری آرک را منفجر می‌کند – U.Today

CLO Coinbase در تعجب است که آیا سنا می خواهد همان “اجرای قانون می خواهد شفافیت را تصویب کند” – U.Today

Hyperliquid شاهد انتقال 32,898,942 دلاری HYPE Whale با کاهش قیمت است – U.Today

آیا باید روغن خود را در والمارت تعویض کنید؟ مزایا و معایب