گوگل مدل جدید جمینی را راه اندازی کرده و مستقیماً به صدر رتبه بندی LLM می رود

پروین میرمیران15 نوامبر 2024آخرین به روز رسانی: 15 نوامبر 2024

0 2,669 خواندن این مطلب 2 دقیقه زمان میبرد

گوگل مدل جدید جمینی را راه اندازی کرده و مستقیماً به صدر رتبه بندی LLM می رود

گوگل به طور مداوم Gemini را به روز می کند و هر چند هفته یک بار نسخه های جدیدی از خانواده مدل های هوش مصنوعی خود را منتشر می کند. آخرین نسخه آنقدر خوب است که مستقیماً به صدر جدول امتیازات Imarena Chatbot Arena رفت و آخرین نسخه GPT-4o OpenAI را از بین برد.

این پلتفرم که قبلاً به عنوان عرصه LMSys شناخته می‌شد، به آزمایشگاه‌های هوش مصنوعی اجازه می‌دهد تا بهترین مدل‌های خود را با یکدیگر به صورت کورکورانه مقایسه کنند. کاربران رای می دهند، اما تا زمانی که رای نمی دهند نمی دانند کدام مدل کدام است.

مدل جدید Google DeepMind نام جذاب Gemini-Exp-1114 دارد و با آخرین نسخه GPT-4o مطابقت دارد و از قابلیت های مدل استدلال o1-preview OpenAI فراتر می رود.

5 مدل برتر در عرصه، همه نسخه های OpenAI یا مدل های گوگل هستند. اولین مدل در تابلوی امتیازات که توسط این دو شرکت ساخته نشده است، Grok 2 از xAI است.

موفقیت این مدل جدید زمانی آشکار شد که گوگل سرانجام اپلیکیشن Gemini را برای آیفون منتشر کرد. این برنامه از ChatGPT در مسابقه 7 طرفه Gemini و ChatGPT ما بهتر عمل کرد.

مدل جدید چقدر خوب کار می کند؟

اخبار عظیم از Chatbot Arena🔥@GoogleDeepMind آخرین Gemini (Exp 1114)، که هفته گذشته با بیش از 6000 رای جامعه آزمایش شد، اکنون در رتبه 1 در مجموع با افزایش امتیاز چشمگیر بیش از 40 – 40 مسابقه آخر و پیش‌نمایش o1 قرار دارد! همچنین ادعای شماره 1 در انتشار را دارد… https://t.co/AgfOk9WHNZ pic.twitter.com/HPmcWE6zzI14 نوامبر 2024

به نظر می رسد جدیدترین مدل Gemini در کارهای ریاضی و بینایی عملکرد خوبی دارد. این منطقی است، زیرا همه مدل های جمینی در حوزه های خود برتر هستند.

Gemini-Exp-1114 در حال حاضر در برنامه یا وب سایت Gemini در دسترس نیست. فقط با ثبت نام برای یک حساب رایگان Google AI Studio (پلتفرمی که هدف توسعه دهندگانی است که می خواهند ایده های جدید را امتحان کنند) به آن دسترسی پیدا کنید.

همچنین مطمئن نیستم که آیا این بازسازی Gemini 1.5 است یا نگاه اولیه به Gemini 2 که ماه آینده انتظار می رود. اگر دومی باشد، بهبود نسبت به نسل قبلی ممکن است آنطور که برخی انتظار دارند زیاد نباشد.

با این حال، طبق معیارها، عملکرد خوبی در زمینه های فنی و خلاقانه دارد. این به این ایده مربوط می شود که برای استدلال و مدیریت عوامل مفید است. رتبه اول در ریاضیات، حل مسائل دشوار، نوشتن خلاق و بینایی.

برخلاف سایر معیارها، Chatbot Arena بر اساس ادراک انسان از عملکرد و کیفیت خروجی به جای آزمایش دقیق داده محور است.

چه این نسخه جدید Gemini 1.5 Pro باشد یا نگاهی اجمالی به قابلیت های Gemini 2، چند ماه جالب در دنیای هوش مصنوعی خواهد بود.