هوش مصنوعی ایلان ماسک در مقابل هوش مصنوعی گوگل با 9 تغییر مسیر چالش برانگیز – برنده واضح اینجاست

Gemini 3 و Grok 4.1 در حال حاضر در صدر رده بندی LMARena قرار دارند. این تابلوی امتیازات عمومی مدل های برتر هوش مصنوعی امروزی را بر اساس نبردهای واقعی کاربران رتبه بندی می کند. این توسط LMSYS، همان تیم پشت Chatbot Arena، اداره میشود و به یکی از مطمئنترین راهها برای دیدن اینکه چگونه مدلها در دنیای واقعی کنار هم قرار میگیرند، تبدیل شده است.
من Gemini 3 و Grok 4.1 را در برابر 9 چالش مختلف قرار دادم – معماهای منطقی، وظایف کدنویسی، نوشتن خلاقانه و ارزیابی خود – تا ببینم هر کدام چگونه خواسته های مختلفی را که کاربران از دستیاران هوش مصنوعی دارند برآورده می کنند. نتایج تضادهای جالبی را در سبک، عمق و قابلیت اطمینان نشان میدهند.
1. استدلال
سریع: شما دو طناب دارید. هر رشته دقیقاً 60 دقیقه طول می کشد تا از انتها به انتها بسوزد، اما آنها با سرعت های متناقض می سوزند (بخش های مختلف سریعتر یا کندتر می سوزند). چگونه می توانید دقیقاً 45 دقیقه را فقط با استفاده از این دو رشته و یک فندک اندازه گیری کنید؟
Gemini 3.0 هنگام پیشنهاد ارائه یک پازل دیگر، از عناوین بخش واضح استفاده کرد و اصل ریاضی را به وضوح بیان کرد.
Grok 4.1 این شامل عبارات محاوره ای بیشتری مانند “این ویژگی کلیدی این پازل ها است” بود و توضیح کمی طبیعی تر جریان داشت.
برنده: گروک برنده می شود برای رسیدگی بهتر به نگرانی «نرخهای ناسازگار» با تأکید بر اینکه چگونه نابرابری از بین میرود.
2. منطق
سریع: در یک دهکده، آرایشگر هرکسی را که فقط خودش را اصلاح نمی کند، می تراشد. آرایشگر خودش را اصلاح می کند؟ پارادوکس و آنچه را که در مورد تعاریف خود ارجاعی آشکار می کند را توضیح دهید.
Gemini 3.0 از عناوین فصل های واضح استفاده کرد و تناقض منطقی را در قالب اگر/آنگاه متعادل ارائه کرد.
Grok 4.1 وی زمینه تاریخی را ارائه کرد و با لحن محکمی در خصوص مفاهیم بیان کرد و تاکید کرد که چنین آرایشگاهی وجود ندارد.
برنده: برنده جمینی 3.0 چون کمی صیقلی تر و آموزنده تر بود.
3. کدگذاری
سریع: یک تابع پایتون بنویسید که تعیین می کند آیا یک برد سودوکو (شبکه 9×9 با تعدادی سلول پر شده، برخی دیگر 0) طبق قوانین سودوکو معتبر است یا خیر. مدیریت موردی لبه را در نظر بگیرید و رویکرد خود را توضیح دهید.
Gemini 3.0 پاسخ آموزشی بیشتری با توضیحات مفصل ارائه کرد. این پاسخ به دلیل مدیریت جامع لبه های آن برای اهداف یادگیری مفید است.
Grok 4.1 تغییرات ورودی در دنیای واقعی را مدیریت کرد و بدون نیاز به مهندسی بیش از حد، درخواست من را به طور موثر انجام داد.
برنده: دوقلوها برنده می شوند برای گزارش بهتر خطا و پشتیبانی از اشکال زدایی با کد تمیزتر و قابل نگهداری تر.
4. اشکال زدایی
سریع: این کد را اشکال زدایی کنید و توضیح دهید که مشکل چیست: def fib(n): return fib(n-1) + fib(n-2)
Gemini 3.0 او مستقیماً به سر اصل مطلب رفت و بلافاصله به خط مبنا گم شده اشاره کرد. او به وضوح حداقل تصحیح را ارائه کرد و در مورد ناکارآمدی بازگشت محض صحبت کرد.
Grok 4.1 دقیقاً نشان داد که بازگشت بی نهایت چگونه به وجود می آید و چندین نسخه اصلاح شده از جمله اعتبار سنجی ورودی ارائه کرد.
برنده: Gemini 3.0 برنده می شود برای پاسخ کاربردی تر با یک درس کدنویسی مفید.
5. نوشتن خلاق
سریع: یک داستان کوتاه 200 کلمه ای بنویسید که در آن جمله آخر همه چیزهایی را که قبل از آن آمده است، کاملاً بازمتنیه کند.
Gemini 3.0 دیدگاهی هوشمندانه با چرخشی کمدی ارائه کرد.
Grok 4.1 با انتقال از قهرمان به شرور، اجرای پیچیده تری را ارائه داد. بیشتر نمایشی و تامل برانگیز است.
برنده: گروک برنده می شود زیرا مکاشفهای واقعاً آزاردهنده ارائه میکند که باعث میشود هر چیزی را که میخوانید عمیقتر دوباره ارزیابی کنید.
6. درک ظریف
سریع: قوی ترین استدلال ها هم موافق و هم علیه درآمد پایه جهانی چیست؟ هر دو طرف را تا حد امکان خیرخواهانه معرفی کنید.
Gemini 3.0 او مستقیماً به مسائل خاصی مربوط به سیستم های رفاهی موجود پرداخت و به ویژه در توضیح تورم و پویایی بازار کار مهارت داشت.
Grok 4.1 این شامل شواهد تجربی از آزمایشات در دنیای واقعی بود و به استدلال هایی برای کرامت انسانی و دارایی مشترک پرداخت.
برنده: دوقلوها برنده می شوند برای ساختار بهتر و دامنه وسیع تر استدلال.
7. دستورالعمل زیر است
سریع: دقیقاً 7 حیوان را فهرست کنید. سومی باید پرنده باشد. مورد پنجم باید با حرف “E” شروع شود. نام هیچ حیوانی نمی تواند بیش از 8 حرف داشته باشد.
Gemini 3.0 فهرستی غنی ارائه کرد که شامل ترکیبی از حیوانات بزرگ و کوچک بود.
Grok 4.1 فهرستی نیز ارائه شد، اما حیوانات کمی رایج تر هستند.
برنده: قرعه کشی هر دو تمام محدودیت های داده شده را کاملاً برآورده می کنند.
8. دقت واقعی
سریع: چه کسی سقف کلیسای سیستین را نقاشی کرده است، در چه سال هایی نقاشی شده است و روایت اصلی به تصویر کشیده شده است؟
Gemini 3.0 اطلاعات مهم را فوراً ارائه داد و به وضوح سازماندهی کرد و به طور مؤثر سه بخش روایت را گروه بندی کرد.
Grok 4.1 این شامل تاریخگذاری دقیقتر و جزئیات بیشتر، همراه با بافت تاریخی و وضوح ساختاری بود.
برنده: گروک برنده می شود برای ارائه اطلاعات کاملتر و خاص بدون به خطر انداختن وضوح.
9. خودآگاهی
سریع: محدودیت های شما به عنوان یک هوش مصنوعی چیست؟ سه مثال خاص از وظایفی که ممکن است در آنها مشکل داشته باشید یا زمین بخورید، بیاورید.
Gemini 3.0 به نظر میرسید که او با این سؤال از موضوع غافل شده بود، حتی اخطارهای گذشته را تکرار میکرد و سعی میکرد دوباره پاسخ دهد. او “فکر می کرد” اما به نظر می رسید که توهم می زد.
Grok 4.1 با پاسخی کاملاً ساختاریافته که واضح، مستقیم و شامل سه مثال خاص و واقع بینانه بود، پاسخ داد.
برنده: گروک برنده می شود برای پاسخ روشن به سوال
درخواست شکستن کراوات
سریع: یک متن فراق از منظر ماه روی زمین بنویسید. آن را شاعرانه کنید، اما کمی علم واقعی اضافه کنید.
Gemini 3.0 او آن را به عنوان یک پیام متنی واقعی قاب کرد (“هی. ما باید صحبت کنیم.”)، سپس زمینه ای را ایجاد کرد که بلافاصله قابل ارتباط، مدرن و تکان دهنده بود. او همچنین به طرز ماهرانه ای مفاهیم علمی را در روایت احساسی جدایی گنجاند.
Grok 4.1 او یک اثر علمی تخیلی زیبا نوشت که خلاقیت را به نمایش می گذارد.
دوقلوها برنده می شوند زیرا او این مأموریت را در سطح عمیق تری درک می کرد. قالب خلاقانه تر است، استعاره ها تندتر هستند، و نتیجه کلی به یاد ماندنی تر، هوشمندانه تر و موثرتر در آمیختن شعر با واقعیت است.
برنده کلی: جمینی
9 راند شروع شد و جمینی که تساوی را شکست داد، پیش افتاد. با وجود اینکه میدانستم آنها در جدول امتیازات چقدر نزدیک هستند، از اینکه گروک این همه راند برد را شگفتزده میکردم.
شگفتی دیگر این بود که جمینی دچار توهم شده بود. من صدها ساعت را صرف آزمایش رباتهای چت کردهام و این اولین بار است که کسی در طول آزمایش دچار توهم میشود. سوال آخر واقعا جمینی را شگفت زده کرد، اما از نظر پشتیبانی از اشکال زدایی و توضیحات ظریف عملکرد خوبی داشت.
همانطور که این مدلها به تکامل خود ادامه میدهند، مقایسههای رو در رو مانند این کمک میکنند نه تنها نشان دهند که کدام «بهتر» است، بلکه همچنین برای شما و برای کدام کار بهتر است.
کدام یک را ترجیح می دهید و چرا؟ در نظرات به من اطلاع دهید.
اطلاعات بیشتر از راهنمای تام
بازگشت به لپ تاپ
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.



