Google Gemini 2 به تازگی برای عرضه در ماه دسامبر معرفی شده است – در اینجا چیزی است که ما می دانیم

پروین میرمیران29 اکتبر 2024آخرین به روز رسانی: 29 اکتبر 2024

0 2,666 خواندن این مطلب 2 دقیقه زمان میبرد

Google Gemini 2 به تازگی برای عرضه در ماه دسامبر معرفی شده است – در اینجا چیزی است که ما می دانیم

انتظار می‌رود گوگل نسل بعدی خانواده مدل‌های هوش مصنوعی Gemini را در اوایل دسامبر، یک سال پس از معرفی Gemini 1 معرفی کند. انتظار می رود این تغییر قابل توجهی نسبت به نسخه های Gemini 1.5 باشد که در ماه می منتشر شد.

به گفته The Verge، اگرچه این یک پیشرفت بزرگ نسبت به Gemini 1 است، اما مدل جدید به اندازه کافی برای میل گوگل قدرتمند نیست. این می تواند به این دلیل باشد که Gemini 1.5 بهتر از حد انتظار است، یا می تواند به این دلیل باشد که ما در حال رسیدن به نقطه تعادلی هستیم که ویژگی ها شروع به مهم تر از عملکرد و قابلیت کلی می کنند.

OpenAI در مدل های خود متفاوت بود و خانواده جدیدی از o1 ها را ایجاد کرد که در استدلال خوب هستند اما در کارهای دیگر چندان خوب نیستند. مدل های GPT-4o (Omni) نیز وجود دارد که همه کاره تر هستند. این احتمال وجود دارد که گوگل نیز مسیر مشابهی را با Gemini 2 دنبال کند.

آزمایشگاه‌های هوش مصنوعی عادت دارند با نزدیک شدن به فصل تعطیلات، اعلامیه‌های بزرگی را اعلام کنند و سپس تا سال جدید روی آن‌ها بنشینند. احتمالاً در Gemini 2 نیز چنین خواهد بود. من گمان می کنم که گوگل انواع جدیدی از Ultra و Pro را ارائه خواهد کرد، اما آنها تا سال 2025 روی برنامه Gemini وارد نخواهند شد.

از Gemini 2 چه انتظاری می توانیم داشته باشیم؟

هر نسل جدید این مدل قابلیت‌های جدید، مجموعه داده‌های آموزشی جدید و حتی راه‌های بالقوه جدیدی برای مسیریابی نسخه‌های قبلی را به همراه دارد. طبق قوانین مقیاس‌بندی هوش مصنوعی که می‌گوید محاسبات + داده + زمان = مدل‌های بهتر، هر نسل جدید باید هوش بیشتری داشته باشد، توانایی بیشتری داشته باشد و توانایی استدلال بهتری داشته باشد.

مثلاً می‌توانید به جمینی بگویید که با پارامترهای خاصی یک پرواز به پاریس رزرو کند و او می‌رود و این کار را برای شما انجام می‌دهد، فقط بلیط‌ها را برایتان ارسال می‌کند.

مشخص نیست ویژگی های جدید Gemini 2 چه خواهد بود. زمانی که Gemini 1 منتشر شد، شاهد قابلیت های چند وجهی از جمله توانایی درک تصاویر یا ویدیوها بودیم. گوگل احتمالاً این موضوع را گسترش خواهد داد و به طور بالقوه داده های مکانی را شامل می شود و اطلاعاتی در مورد جهان و فیزیک دنیای واقعی به آن می دهد. ما در پروژه اطلس (جمینی لایو + لنز) نکاتی در این باره دیدیم.

من فکر می کنم به احتمال زیاد ما شاهد پیشرفت های گسترده در قضاوت و قابلیت اطمینان خواهیم بود. ما همچنین می‌توانیم شاهد باز شدن برخی از این توانایی‌های «تفکر» در مدل گسترده‌تر باشیم. بزرگترین تغییر احتمالاً در قالب آژانس ها رخ خواهد داد.

اینها قابلیت‌های مدل هستند که به آن اجازه می‌دهند تا وظایف خود را بدون تکیه بر ورودی‌های انسانی فراتر از درخواست اولیه انجام دهد. مثلاً می‌توانید به جمینی بگویید که با پارامترهای خاصی یک پرواز به پاریس رزرو کند و او می‌رود و این کار را برای شما انجام می‌دهد، فقط بلیط‌ها را برایتان ارسال می‌کند.

عوامل توانمندسازی از مدل می خواهند که بتواند قبل از اقدام در مورد یک مشکل فکر کند، مشابه O1 OpenAI. بنابراین احتمالاً این یک استعداد دیگر خواهد بود. این دقت بهبود یافته و همچنین پاسخ های دقیق تری را فراهم می کند. من همچنین گمان می کنم که گوگل به دلیل افزایش رقابت از OpenAI، جستجو و دسترسی به داده های زنده را بهبود می بخشد.