من Grok و MetaAI را در یک مسابقه 7 دور قرار دادم – اینجا برنده است
Grok و MetaAI به عنوان یک رابط چت برای یک پلتفرم رسانه اجتماعی شروع به کار کردند، اما به تدریج در حال تبدیل شدن به ابزارهای مستقل برای رقابت با قابلیتهای ChatGPT و Gemini هستند.
هر دو ربات میتوانند تصاویر تولید کنند، کد بنویسند و داستانهای جذاب ایجاد کنند، و همچنین هر دو در تعامل با آنها احساس «متفاوت» دارند و در مقایسه با بازیکنان بزرگی مانند ChatGPT، Gemini و Claude صدای طبیعیتری ارائه میدهند. با این حال، این کاملاً حکایتی است و بر اساس تجربه من بدون هیچ گونه پشتیبانی از بررسی ها است.
تصمیم گرفتم آنها را با یک سری 7 سرنخ آزمایش کنم. این همان قالبی است که من در تست های مشابه ChatGPT vs Gemini، ChatGPT vs Claude، Claude vs Gemini، و ChatGPT vs Grok استفاده کردم. به عنوان یک کنار، تنها چیزی که ChatGPT را شکست می دهد Grok است.
درخواست ایجاد کنید
این آزمون جامع نیست. من به جزئیات در فرآیند ایجاد تصویر نگاه نمیکنم، در عوض از هر کدام با استفاده از همان فرمان یک تصویر ایجاد میکنم. در حالی که تصمیمات بر اساس مجموعه ای از معیارهای از پیش تعیین شده سنجیده می شوند، آنها تا حد زیادی ذهنی و بر اساس سلیقه خود من هستند.
اگرچه هر دو دارای دسترسی در دنیای واقعی هستند، هیچ ویژگی خاصی از چت ربات های مختلف به جز رندر استفاده نمی شود، بنابراین سعی خواهم کرد ببینم که آنها چقدر به درخواست زمان بندی رسیدگی می کنند و آیا داده های زنده را در پاسخ گنجانده اند یا خیر.
1. تولید تصویر
ابتدا تست رندر هوش مصنوعی را انجام می دهیم. Grok از مدل داخلی خود استفاده می کند که قبلاً Aurora نام داشت. Gemini از مدل Google DeepMind Imagen 3 استفاده می کند. هیچ کدام از رندر بومی استفاده نمی کنند، اما هیچ یک از مدل های عمومی هنوز از این تکنیک استفاده نمی کنند.
در اینجا از مدل هوش مصنوعی میخواهم که تصویری از یک مرد ریشو با عینک که پشت یک میز درهم نشسته است، ایجاد کند. صادقانه بگویم، این یک زندگینامه نیست.
اعلان: “مردی در اوایل دهه 40 خود، با ریش و عینک، پشت میز درهم ریخته ای در دفتر خانه اش نشسته و با حالتی متمرکز به صفحه لپ تاپ خیره شده است. او یک ژاکت و شلوار جین معمولی می پوشد. یک دستش روی موش قرار می گیرد. دیگری یک قلم به چانه اش می زند و یک کاسه ی نیمه خورده ی رامن در کنار کیبورد قرار دارد سایه های طولانی در سراسر اتاق.
اگرچه تصویر MetaAI جالبتر است، اما در مقایسه با تصویر گروک، واقعگرایی را از دست میدهد. تصویر گروک از نظر نور، اتمسفر و حال و هوا متمایز است و با هدف هنری اعلان هماهنگی بیشتری دارد.
- برنده: Grok برای تصویر واقعی تر
2. رسانه های اجتماعی
من prompt 2 را در مورد تجزیه و تحلیل تصویر در تمام تست های قبلی خود انجام داده ام، اما من در بریتانیا هستم و MetaAI قابلیت تجزیه و تحلیل تصویر را ندارد. من نمی توانم به او عکس بدهم، بنابراین یک درخواست ایجاد کردم که به جای آن در پیوند رسانه های اجتماعی پخش می شود.
سریع: تصور کنید که شما مدیر رسانه های اجتماعی یک برند جدید پوشاک دوستدار محیط زیست هستید.
پست ها باید جذاب، آموزنده و مخاطب جوان و آگاه به محیط زیست باشند. هشتگ های مرتبط را اضافه کنید و سبک منحصر به فرد هر پلتفرم را در نظر بگیرید.
پاسخ کامل در Google Doc. گروک به دلایل زیادی برنده این است. به خصوص از آنجایی که این فقط ساختن یک برند نیست. یک کمپین جانشین ایجاد کرد که کاربر میتواند نام تجاری خود را به آن اضافه کند. ایشان هم راهنمایی کردند.
- برنده: Grok برای مجموعه ای از پست های پر طنین انداز و خلاقانه تر
3. چالش کدنویسی
در آزمایشهای قبلی، مدلهایی داشتم که بازیها را ایجاد میکردند، یک برنامه فهرست کارها و یک تایمر پومودورو. در اینجا من از آنها می خواهم یک مبدل ساده ایجاد کنند. در این ما طول و وزن را تبدیل می کنیم.
سریع: “یک برنامه پایتون با رابط کاربری گرافیکی ایجاد کنید که به عنوان یک مبدل واحد ساده عمل می کند. این برنامه باید به کاربران اجازه دهد:
بین تبدیل طول (متر به فوت/فوت به متر) یا وزن (کیلوگرم به پوند/پوند به کیلوگرم) را انتخاب کنید.
مقداری را برای تبدیل وارد کنید.
مشاهده نتیجه تبدیل شده
رابط کاربری باید تمیز و کاربر پسند باشد. کد باید بدون هیچ گونه تغییری قابل اجرا باشد.”
هر دو برنامه به طرز شگفت انگیزی شبیه به هم بودند و درست کار می کردند. من این را به Grok دادم زیرا در واقع شامل برچسب زدن بهتر در انتخابگر طول و وزن بود، اما من منوی کشویی را در MetaAI ترجیح دادم.
- برنده: Grok برای نمایش بهتر واحدها برنده شد
4. نوشتن خلاق
برای چالش چهارم، هر مدل داستان کوتاهی به سبک دکتر سوس تولید می کند، اما آنها باید درباره یک مخترع جوان باشد که مترجم زبان حیوانات را ایجاد می کند.
سریع: “یک داستان کوتاه عجیب به سبک دکتر سوس در مورد مخترع جوانی بنویسید که ماشینی ایجاد می کند که می تواند زبان حیوانات را ترجمه کند. آنها از آن برای برقراری ارتباط با ماهی قرمز خانگی خود استفاده می کنند که راز شگفت انگیزی را در مورد منشاء گونه خود فاش می کند. داستان باید پر از قافیه های مهد کودک و موجودات خلاق باشد.”
کل گزارش در Google Doc است. پاسخ MetaAI تقریباً بلافاصله من را ناکام گذاشت زیرا از کلمه دمدمی مزاج در خط آغازین استفاده کرد. این کمی “تقلب” و نشانه ای از یک مدل هوش مصنوعی با کیفیت پایین تر است.
- برنده: گروک برای به تصویر کشیدن بهتر روحیه عجیب و غریب دکتر سوس برنده شد
5. حل مسئله
حل مسئله چیزی است که مدلهای هوش مصنوعی میتوانند در آن خوب باشند، به خصوص اگر درجاتی از توانایی استدلال داشته باشند. آنها با حل گام به گام مشکل راه حل ایجاد می کنند. چالش این است که چگونه آنها این راه حل را به مخاطبان غیر فنی ارائه می دهند.
سریع: “یک کاربر در اتصال هدفون بی سیم خود به لپ تاپ خود مشکل دارد. او سعی کرده هدفون را روشن و خاموش کند، اما مشکل همچنان پابرجاست. راهنمای عیب یابی ایجاد کنید که مشکلات رایج اتصال، از جمله تنظیمات بلوتوث، به روز رسانی درایورها، و مشکلات احتمالی سخت افزاری را پوشش دهد. “
پاسخ کامل در Google Doc موجود است. MetaAI کار بدی انجام نداد. اگرچه به نظر می رسد که همه “با سازنده تماس می گیرند” آنها آن را گام به گام با دستورالعمل های ساده توضیح می دهند. گروک این کار را حتی با یک طرح مشخص تر و گزینه های بازگشتی بهتر انجام داد.
- برنده: Grok برای راهنمای کاربر پسندتر و همچنین در دسترس تر
6. برنامه ریزی پیشرفته
مدلهای هوش مصنوعی در برنامهریزی بسیار خوب هستند، بهویژه مدلهایی که به دادههای زنده مانند Gemini و ChatGPT Search دسترسی دارند. از آنجایی که هم MetaAI و هم Grok دسترسی زنده دارند، فکر کردم ببینم چقدر خوب برنامه ریزی برای تعطیلات به ارتفاعات اسکاتلند انجام داده اند.
سریع: برای یک مسافر انفرادی که علاقه مند به پیاده روی، دیدن حیات وحش و تجربه فرهنگ محلی است، یک سفر 10 روزه برای کاوش در ارتفاعات و جزایر اسکاتلند برنامه ریزی کنید. این برنامه باید شامل موارد زیر باشد:
یک برنامه سفر پیشنهادی که شامل ترکیبی از مقصدهای سرزمین اصلی و جزیره است (باید جزیره اسکای و دریاچه نس را شامل شود).
پیشنهاداتی برای مسیرهای پیاده روی خوش منظره با سطوح دشواری مختلف.
توصیه هایی برای فرصت هایی برای مشاهده حیات وحش محلی (گوزن قرمز، فوک ها، پرندگان).
انواع گزینه های اقامتی (هاستل ها، هاستل ها و اقامتگاه های منحصر به فرد مانند گلمپینگ یا هر دو).
توصیه های حمل و نقل (حمل و نقل عمومی، کرایه ماشین، کشتی).
تفکیک بودجه تخمینی بر حسب پوند، با در نظر گرفتن محل اقامت، حمل و نقل، فعالیت ها و وعده های غذایی.”
تمام جزئیات در Google Doc موجود است. پاسخهای مشابهی وجود داشت، اما مانند پاسخهای دیگر، گروک شخصیتر و جذابتر بود. در کل بهتر بود، با جزئیات و جزئیات بیشتر.
- برنده: گروک با پاسخ شخصی تر و جذاب تر برنده شد
7. آموزش و پرورش
در نهایت، ما آزمایش می کنیم که هوش مصنوعی چقدر خوب می تواند یک موضوع پیچیده را برای یک مخاطب خاص توضیح دهد. در اینجا از یک کودک 12 ساله خواستم که مفهوم هوش مصنوعی را توضیح دهد. این باید شامل تفکیک بر اساس موضوع و نشان دادن نمونه های روزانه باشد.
سریع: “مفهوم هوش مصنوعی را به گونه ای توضیح دهید که یک کودک 12 ساله می تواند درک کند. از تشبیهات و مثال هایی از زندگی روزمره استفاده کنید. در مورد انواع مختلف هوش مصنوعی و نحوه استفاده از آنها بحث کنید.”
پاسخ های کامل در Google Doc. Grok در تجزیه این مفهوم، تجزیه آن به انواع مختلف هوش مصنوعی و استفاده از تشبیهات جالبتر کار بسیار بهتری انجام میدهد.
- برنده: سبک گروک با استفاده بهتر از استعاره های خلاقانه عجیب تر است
سلول سرصفحه – ستون 0 | گروک | MetaAI |
---|---|---|
تولید تصویر | 🏆 | ردیف 0 – سلول 2 |
تجزیه و تحلیل تصویر | 🏆 | ردیف 1 – سلول 2 |
چالش کدنویسی | 🏆 | ردیف 2 – سلول 2 |
نوشتن خلاق | 🏆 | ردیف 3 – سلول 2 |
حل مسئله | 🏆 | ردیف 4 – سلول 2 |
برنامه ریزی پیشرفته | 🏆 | ردیف 5 – سلول 2 |
آموزش و پرورش | 🏆 | ردیف 6 – سلول 2 |
TOTAL | 7 | 0 |
این اولین آزمایشی بود که در آن یک مدل به طور کامل در برابر مدل دیگر پیروز شد و در اکثر تست ها آنقدر نزدیک نبود. گروک ثابت می کند که چیز خاصی است. MetaAI مدل بدی نیست، فقط در همان لیگ Grok نیست.
تحلیل هر پاسخ تقریباً از ابتدا تا انتها یکسان بود. Grok به وضوح از MetaAI بهتر عمل کرد. Llama 3.2 400b یک مدل پایه خوب است. این منبع باز است و بسیاری از برنامه ها را قدرت می دهد، اما Grok بهتر است. این ممکن است با Llama 4 و Grok 3 تغییر کند، اما در حال حاضر Grok برنده است.