گوگل همه را روشن می کند – Gemini Flash 1.5 جدید از GPT-4o پیشی گرفته است

پروین میرمیران14 می 2024آخرین به روز رسانی: 14 می 2024

0 2,655 خواندن این مطلب 2 دقیقه زمان میبرد

گوگل عضو جدیدی از خانواده مدل های هوش مصنوعی جمینی را راه اندازی کرده است. Gemini Flash که بین Nano روی دستگاه و Pro مبتنی بر ابر قرار دارد، برای چت کردن، کارهای پیچیده ای که نیاز به پاسخ سریع دارند و پردازش تصاویر، ویدئو و گفتار طراحی شده است.

Gemini Flash 1.5 که در رویداد سالانه توسعه دهندگان Google I/O رونمایی شد، یک مدل چندوجهی بومی شبیه به GPT-4o اخیراً معرفی شده توسط OpenAI است که برای سرعت طراحی شده و برای مکالمات بلادرنگ مفید است.

مدل جدید اکنون در سطح جهانی برای توسعه دهندگان در دسترس است تا در برنامه های خود استفاده کنند، بنابراین ممکن است به زودی شاهد تعدادی برنامه چت زنده شخص ثالث باشیم که با استفاده از Gemini Flash 1.5 ساخته شده اند.

ما همچنین شاهد این بودیم که به روزرسانی به Gemini Pro 1.5، مدلی که اولین بار در اوایل سال جاری منتشر شد، صورت گرفته است و این مدل اکنون به ربات چت پریمیوم Gemini Advanced مجهز خواهد شد.

چه چیزی Gemini Flash 1.5 را متفاوت می کند؟

(اعتبار تصویر: گوگل)

Gemini Flash 1.5 در سلسله مراتب سایز درست بالای Nano و درست زیر Pro قرار دارد و ترکیب سرعت و چابکی آن چیزی است که آن را نه تنها از خواهر و برادرش بلکه از سایر مدل های هوش مصنوعی متمایز می کند.

Flash 1.5 نه تنها از نظر توانایی در درک متن، تصاویر، ویدئو و گفتار سریع و چشمگیر است، بلکه ارزان است، حداقل در مقایسه با Pro، که هزینه آن 20 برابر بیشتر است.

Demis Hassabis، مدیر عامل Google DeepMind می گوید: «ما از بازخورد کاربران می دانیم که برخی از برنامه ها به تأخیر کمتر و هزینه خدمات کمتری نیاز دارند. او خاطرنشان کرد که فلش «سبک‌تر از 1.5 Pro است و به گونه‌ای طراحی شده است که سریع و کارآمد برای سرویس دهی در مقیاس باشد» و افزود: «این الهام بخش ما برای ادامه نوآوری است.

یک مقایسه خوب، حداقل از نظر سرعت، با GPT-4o اخیراً اعلام شده OpenAI است. این بسیار سریع، ذاتا چند وجهی است و برای تعامل در زمان واقعی طراحی شده است. با این حال، به نظر می رسد Gemini Flash 1.5 از نظر استدلال، مدلی کمتر توانا باشد.

در مورد پنجره زمینه بزرگ چطور؟

توکن های فلش جمینی 1.5

(اعتبار تصویر: گوگل)

مانند سایر مدل‌های خانواده جمینی، Flash 1.5 با یک پنجره بزرگ میلیون سکه‌ای عرضه می‌شود و این وعده را می‌دهد که می‌توانید واقعاً از آن استفاده کامل کنید. در مقایسه، GPT-4o دارای یک پنجره محتوایی 128000 توکن و Claude 3 دارای 200000 توکن است.

چیزی که یک پنجره زمینه گسترده را بسیار مهم می کند، توانایی حفظ حجم وسیعی از اطلاعات در یک مکالمه است. وقتی صحبت از تجزیه و تحلیل محتوای غیر متنی به میان می آید، بسیار مهم است، زیرا ارزش یک تصویر 1000 کلمه است و ارزش یک ویدیو حتی بیشتر است.

او همچنین توسط برادر بزرگترش Gemini Pro 1.5 آموزش دیده است. Hassabis گفت: این “از طریق فرآیندی به نام “تقطیر” انجام می شود، جایی که ضروری ترین دانش و مهارت ها از یک مدل بزرگتر به یک مدل کوچکتر و کارآمدتر منتقل می شود.

او گفت که در نتیجه این فرآیند، «1.5 Flash در خلاصه‌سازی، برنامه‌های چت، افزودن زیرنویس‌های تصویری و ویدیویی، استخراج داده‌ها از اسناد و جداول طولانی و موارد دیگر برتری دارد».

از آنجایی که این مدل‌ها، از جمله مدل‌های سریع‌تر اما کوچک‌تر مانند Flash، توانایی درک بیشتر از متن را به دست می‌آورند، پنجره زمینه افزایش یافته حتی مهم‌تر می‌شود.