27 مدل هوش مصنوعی توسط عموم و چتگپ 8 مورد بود.

اگرچه دنیای هوش مصنوعی اغلب می تواند مانند غرب وحشی احساس کند ، اما در پشت صحنه ، تجزیه و تحلیل ، مقایسه و آزمایش بسیار شگفت آور زیادی وجود دارد. نه تنها از خود شرکت ها ، بلکه از گروه هایی که برای ایجاد رتبه های خود ایجاد شده اند.
این گروه ها همه چیز را از توانایی chatbot در تکمیل تست های ریاضی ، ایجاد تصاویر ، نشان دادن استدلال ، ارائه مشاوره پزشکی یا تشخیص اینکه چقدر باهوش هستند فقط از نظر عاطفی آزمایش می کنند ، آزمایش می کنند.
در این تست های مختلف ، مدل ها بالا و پایین می روند ، قدرت و نقاط ضعف خود را در زمینه های مختلف نشان می دهند. به عنوان مثال ، GPT-5 از توانایی Gemini و Claude در سازگاری با مفاهیم جدید سقوط کرد ، اگرچه در استدلال علمی بسیار عالی است.
هر یک از این تست ها چیز جدیدی راجع به مدل های هوش مصنوعی به ما می گوید و یادآوری می کند که کدام ابزار در سناریوهای مختلف بهترین است. با این حال ، اندازه گیری معمولاً از دست رفته است. به سادگی ، کدام مدل های هوش مصنوعی بهترین تجربه کاربر را ارائه می دهند؟
سیستم مرتب سازی Humain
یک شرکت فناوری مبتنی بر انگلستان ، Produjic ، نقاشی های هوش مصنوعی خود را Humaine تأسیس کرد. وی به جای آزمایش توانایی AI در انجام وظایف ، تجربیات کاربران مختلف تولیدی را در مدل ها آزمایش کرد.
21،352 نفر نه تنها با ارزیابی تجربیات 21،352 نفر با ابزار ، یک برنده کلی پیدا می کنند ، بلکه می توانند نتایج را مطابق با Live ، به زمین (آزمایش شده در انگلستان و ایالات متحده) و طبق اعتقادات سیاسی از بین ببرند.
این شامل لیست های فردی برای موارد زیر است:
- انگلستان: گروه های سنی
- انگلیس: قومیت
- انگلیس: نظر سیاسی
- ایالات متحده: گروه های سنی
- ایالات متحده: قومیت
- دیدگاه سیاسی ایالات متحده
این تیم به هر شرکت کننده این امکان را داد تا در یک مقایسه با دو مدل AI جداگانه ارتباط برقرار کند و از آنها خواسته است تا بازخورد خود را ارائه دهند که کدام مدل در هر تعامل بهتر است.
این یک برنده کلی برای عملکرد است و به صفحه امتیاز منجر شده است ، اما همچنین برنده ارتباطات ، سیالیت و اعتماد و اخلاق و همچنین رتبه های جداگانه برای عملکرد و استدلال اصلی کار است.
نتایج نشان می دهد؟
پس از نظرسنجی ، نه تنها در رده عملکرد عمومی ، بلکه بیشتر زیر مجموعه ها برنده کاملاً واضح بودند. Gemini 2.5-Pro ، آزمایش تقریباً در هر فیلتر به بالا ارائه می شود.
بین 18 تا 34 سال در انگلیس ، رأی دهندگان دموکرات و افراد بالای 55 سال در ایالات متحده اعتراف کردند که Gemini 2.5 Pro بهترین الگوی کلی است. رتبه بندی چیزی در جمینی همه گروه های جمعیتی ، با توجه به برخی از مشکلات امنیتی و اخلاقی که مدل AI در آن دیر است ، یک پیدا کردن کمی طنزآمیز است.
جالب اینجاست که سه مدل Deepseek ، Magistal Le Chat و Grook. Deepseek در ابتدای سال جاری محبوبیت زیادی را مشاهده کرده است که اخیراً از رادار سقوط کرده است. از طرف دیگر ، Le Chat یک قایق گپ کمتر محبوب است ، اما دارای یک فن فن وفادار است.
بنابراین ، در این همه چت های مشهور جهان کجاست؟ یک پیمایش بزرگ هشتم با بالاترین رتبه از مدل GPT-4.1. از همه بدتر ، کلود در رده بندی عمومی دو نسخه یازدهم و دوازدهم قرار دارد.
بنابراین همه اینها به چه معنی است؟
آیا این بدان معنی است که جمینی بهترین چت بابات AI در جهان است؟ آیا این بدان معنی است که شما باید چتگپ را ترک کنید؟ دقیقاً
این نتایج لزوماً منعکس کننده عملکرد این مدل ها نیست. هنگامی که در بسیاری از متریک های دیگر آزمایش شد ، گزینه هایی که معمولاً در بالا مشاهده می کنیم ، چتپ ، جمینی ، کلود و گوک هستند.
با این حال ، این یک دلبستگی مهم به این آزمایشات است. این به درک بهتر هوش مصنوعی از منظر تجربه انسانی کمک می کند. به عنوان مثال ، LE Chat در معیارها نمرات بالایی کسب نمی کند ، اما اغلب به عنوان بهترین گزینه برای تجربه و اعتماد ذکر شده است.
اگرچه در این دور تست ویژه هیچ کار خوبی انجام نمی دهد ، اما برای دوقلوها و گروک عملکرد خوبی دارد. هر دو شرکت غالباً با معیارها امتیاز می گیرند و به این کار ادامه می دهند.
بیشتر از راهنمای تام
بازگشت به لپ تاپ ها



