Google Gemini – هر آنچه که باید بدانید

پروین میرمیران22 دسامبر 2024آخرین به روز رسانی: 22 دسامبر 2024

0 2,667 خواندن این مطلب 5 دقیقه زمان میبرد

گوگل اولین مدل Gemini خود را در دسامبر 2023 راه اندازی کرد، زمانی که چت بات آن هنوز Bard نام داشت. از آن زمان، غول جستجو به تدریج نام Gemini را برای تقریباً هر کاری که در ارتباط با هوش مصنوعی انجام می دهد، انتخاب کرد.

چت ربات Bard اولین ربات بود که در اوایل سال جاری منتشر شد و تنها پس از آن جمینی قرار گرفت. Gemini Assistant به زودی دنبال شد و تا حد زیادی جایگزین دستیار قبلی در اندروید شد. این شرکت همچنین از Gemini در Docs و برای توسعه دهندگان استفاده می کند.

بعد از هیجان اولیه، به نظر می رسید که سرعت کار برای گوگل کند شده است. به جای نام جدیدی که قبلا انجام داد، شرکت جمینی را با افزودن آن به محصولات و خدمات بیشتر دو برابر کرد.

سپس در ماه دسامبر، گوگل Gemini 2.0 را منتشر کرد. مدیرعامل Sundar Pichai راه اندازی آن را آغاز عصر عامل توصیف کرد. اینجاست که مدل‌های هوش مصنوعی طبق دستورالعمل‌های اولیه از طرف شما وظایفی را انجام می‌دهند.

جمینی ها چیست؟

با Gemini 2.0 آشنا شوید | تواناترین مدل هوش مصنوعی ما – YouTube

تماشا کنید

مدل Gemini نه تنها بر روی متن، بلکه به عنوان یک مدل چند وجهی که می تواند تصاویر، ویدئو، صدا و حتی کدهای کامپیوتری را پردازش کند، آموزش دیده است. این شبیه به GPT-4o OpenAI است و از Gemini 2 نیز می تواند این روش ها را خروجی دهد.

آخرین نسخه این مدل در ماه های گذشته بی سر و صدا توسعه یافته است، مطابق با روش معمول کار گوگل، و برخی از ویژگی هایی را ارائه می دهد که محصولات تبلیغاتی بیشتری مانند ChatGPT از دست داده اند.

به عنوان مثال، Gemini اکنون بیش از 50000 نوع در Hugging Face دارد که چندین زبان و کاربرد را پوشش می دهد.

متأسفانه این تنوع باعث سردرگمی بسیار شده است. هجوم اخیر پرتاب های Gemini اوضاع را بدتر کرده است، و ما فکر می کنیم زمان آن رسیده است که یک نقشه واضح از جهان جمینی ایجاد کنیم تا درک همه چیز آسان تر شود.

اولین چیزی که باید متوجه شد این است که گوگل دوست دارد فناوری مدل و برنامه‌های کاربردی را با تغییراتی به همین نام ترکیب و مطابقت دهد. هنگامی که این موضوع را روشن کردید، همه چیز سر جای خود قرار می گیرد.

1. مدل ها

دوره جوزا

(اعتبار تصویر: گوگل)

در ابتدا، آزمایشگاه هوش مصنوعی DeepMind وجود داشت که در سال 2010 در لندن راه اندازی شد. سنگ بنای کل صنعت هوش مصنوعی، LaMDA، PalM و Gato مدل های هوش مصنوعی را به دنیا معرفی کردند. دوقلوها آخرین تکرار این خانواده نسلی هستند.

نسخه 1.0 مدل Gemini در سه نسخه مختلف Ultra، Pro و Nano منتشر شد. همانطور که از نام آنها پیداست، این مدل‌ها از مدل‌های پرقدرت گرفته تا نسخه‌های کوچک‌تر که برای اجرا بر روی تلفن‌ها و سایر دستگاه‌های کوچک طراحی شده بودند، متغیر بودند.

توجه داشته باشید که بسیاری از سردرگمی‌های راه‌اندازی‌های بعدی ناشی از مبارزه فلسفی گوگل بین کسب‌وکارهای جستجو و هوش مصنوعی آن بود.

آدم خواری در جستجوی هوش مصنوعی همیشه شمشیری بر سر این شرکت آویزان بوده و به نگرش “خواهان یا نخواهند” نسبت به عرضه محصولات هوش مصنوعی به بازار کمک زیادی کرده است.

جمینی فلش 1.5

(اعتبار تصویر: گوگل)

Gemini 1.5 که ده ماه پیش منتشر شد، یک بهبود تدریجی از مدل اصلی بود، که ترکیبی از فناوری خبره (MoE)، میلیون‌ها پنجره زمینه سکه و معماری جدید را شامل می‌شد. از آن زمان تاکنون شاهد انتشار Gemini 1.5 Flash، Gemini 1.5 Pro-002 و Gemini 1.5 Flash-002 بوده ایم. آخرین آن فقط سه ماه پیش منتشر شد.

در همان زمان، این شرکت با عرضه محصول رایگان Gemma به فضای باز مدل های باز حمله کرده است. این مدل‌های پارامتر دوبعدی و ۷ بعدی به‌عنوان پاسخی مستقیم به راه‌اندازی خانواده مدل لاما توسط متا در نظر گرفته شدند. Gemma 2.0 پنج ماه بعد منتشر شد.

Gemini 2.0 در دسامبر 2024 منتشر شد و به عنوان یک مدل برای دوره نمایندگی معرفی شد. اولین نسخه منتشر شده Gemini 2.0 Flash Experimental بود، یک مدل با کارایی بالا و چند وجهی که از استفاده از ابزارهایی مانند جستجوی گوگل و فراخوانی عملکرد برای تولید کد پشتیبانی می کند.

در عرض چند هفته، این شرکت Gemini 2.0 Experimental Advanced را منتشر کرد که ظاهراً نسخه کامل نسل فعلی است. ظاهراً می گوییم زیرا در این مرحله هیچ کس مطمئن نیست که کد کامل چیست و کد اولیه چیست.

چیزی که به طور قطع می توان گفت این است که Gemini 2.0 Flash Experimental یک مدل هوش مصنوعی فوق العاده توانا و کارآمد از هر نظر است.

مدل های جمینی

Gemini 1 Ultra – قدرتمند
جمینی 1 پرو – میان رده
Gemini 1 Nano – کوچک
فلش Gemini 1.5 – سریعتر، ارزانتر
Gemini 1.5 Pro – کندتر، گران تر
Gemini 2.0 Flash Experimental
Gemini 2.0 Flash Thought
Gemini 2.0 Experimental Advanced

مدل های جما (Gemmaverse)

جما 1 (پارامترهای 2B، 7B)
جما 2 (2B, 9B, 27B): 27B از ابتدا آموزش دیدند.
CodeGemma (2D و 7D): برای تولید کد به خوبی تنظیم شده است.
RecurrentGemma (2D, 9D): مبتنی بر Griffin به جای Transformer-based.
PaliGemma 2 (3D، 10D، 28D): مدل بینایی ورودی های متن و تصویر را می پذیرد. چند زبانه.
DataGemma: مدل داده محور
GemmaScope: ابزار تحقیق هوش مصنوعی

2. برنامه های کاربردی

سنگ های جوزا

(اعتبار تصویر: آینده)

گوگل هم یک شرکت تحقیقاتی و هم محصولی است. DeepMind و Google AI تحقیقات و انتشار مدل ها را هدایت می کنند. طرف دیگر گوگل آن مدل ها را می گیرد و در محصولات قرار می دهد. این شامل سخت افزار، نرم افزار و خدمات می شود.

چت ربات ها

چت بات ها از نظر برنامه های کاربردی گوگل، مانند بسیاری دیگر از فروشندگان مدل اصلی، پیشتاز هستند. باز هم، گوگل است، همه چیز از نظر نام و عملکرد کمی تار می شود.

ربات چت جمینی. این قبلا بارد نام داشت و کاملاً از مدل جمینی جدا بود. ده ماه پیش، Bard و یکی دیگر از محصولات گوگل، Duet AI، با نام تجاری Gemini با راه اندازی یک برنامه اندروید ترکیب شدند.

پس از این فرآیند، چت Gemini اکنون در محصولات بیشتر Google از جمله دستیار اندروید، مرورگر کروم، Google Photos و Google Workspace ادغام شده است.

در زمان نگارش این مقاله، Gemini Chatbot و Android Assistant قدیمی به صورت دو گزینه ای در آخرین نسخه های سیستم عامل گوشی اندروید در دسترس هستند. Gemini Live به عنوان جایگزین گوگل برای حالت صوتی پیشرفته با تاخیر کم و پرسرعت OpenAI دیده می شود و انتظار می رود در آینده نزدیک در گوشی های هوشمند گوگل پیکسل در دسترس قرار گیرد.

محصولات

در حالی که Gemini به عنوان یک چت بات بیشتر مدل های جدید و توجه علاقه مندان به هوش مصنوعی را به خود جلب می کند، بیشتر نگاه ها به هوش مصنوعی به جمینی روی موبایل معطوف می شود.

این به دو صورت است، ابتدا از طریق اپلیکیشن Gemini در آیفون و اندروید، و بعداً از طریق ادغام عمیق آن با سیستم عامل اندروید.

در اندروید، توسعه دهندگان حتی می توانند از مدل Gemini Nano در برنامه های خود بدون نیاز به استفاده از مدل مبتنی بر ابر یا پرهزینه برای انجام کارهای اساسی استفاده کنند.

یکپارچگی عمیق اجازه می دهد تا عملکردهای سیستم از Gemini و همچنین استفاده از Gemini Live (دستیار صوتی AI) برای پخش آهنگ ها و موارد دیگر فعال شود.

آزمایشات

راه اندازی جدیدترین مدل Gemini با تعدادی از برنامه های اصلی منتشر شده یا پیش نمایش های مرتبط با مدل جدید همراه بود. لیست طولانی و چشمگیر است. برخی از این موارد عبارتند از:

Project Astra: نمایشی دیدنی از قدرت درک بصری دستیاران هوش مصنوعی
پروژه مارینر: نمونه ای عالی از قدرت هوش مصنوعی چند وجهی برای موارد استفاده در دنیای واقعی
NotebookLM: یک پارادایم جدید قابل توجه برای تحقیقات و شیوه های کاری
Deep Research: ابزار تحقیقاتی آژانس بسیار قدرتمند با قابلیت جستجوی عمیق و زمینه های گسترده

3. سکوها

لوگوی هوش مصنوعی گوگل روی گوشی

(اعتبار تصویر: Shutterstock)

به غیر از نسخه‌های موبایل و مبتنی بر وب Gemini، برخی محصولات ممتاز و متمرکز بر توسعه‌دهندگان نیز وجود دارد. اینها اغلب پیشرفته‌ترین مدل‌ها و ویژگی‌ها، مانند Deep Research در Gemini Advanced را ارائه می‌دهند.

Gemini Advanced: دروازه پیشرفته مبتنی بر اشتراک به محصولات هوش مصنوعی گوگل.
Google Cloud: برای دسترسی به طیف وسیعی از محصولات سازمانی و مصرفی Google، پرداخت کنید
AI Studio: زمین بازی هوش مصنوعی رایگان برای آزمایش و ارزیابی مدل‌های هوش مصنوعی Gemini
Vertex AI: پلتفرم توسعه هوش مصنوعی به عنوان بخشی از خدمات Google Cloud یکپارچه شده است
Google One: سرویس ذخیره سازی ابری مبتنی بر اشتراک برای مصرف کنندگان