گوگل همه را روشن می کند – Gemini Flash 1.5 جدید از GPT-4o پیشی گرفته است
گوگل عضو جدیدی از خانواده مدل های هوش مصنوعی جمینی را راه اندازی کرده است. Gemini Flash که بین Nano روی دستگاه و Pro مبتنی بر ابر قرار دارد، برای چت کردن، کارهای پیچیده ای که نیاز به پاسخ سریع دارند و پردازش تصاویر، ویدئو و گفتار طراحی شده است.
Gemini Flash 1.5 که در رویداد سالانه توسعه دهندگان Google I/O رونمایی شد، یک مدل چندوجهی بومی شبیه به GPT-4o اخیراً معرفی شده توسط OpenAI است که برای سرعت طراحی شده و برای مکالمات بلادرنگ مفید است.
مدل جدید اکنون در سطح جهانی برای توسعه دهندگان در دسترس است تا در برنامه های خود استفاده کنند، بنابراین ممکن است به زودی شاهد تعدادی برنامه چت زنده شخص ثالث باشیم که با استفاده از Gemini Flash 1.5 ساخته شده اند.
ما همچنین شاهد این بودیم که به روزرسانی به Gemini Pro 1.5، مدلی که اولین بار در اوایل سال جاری منتشر شد، صورت گرفته است و این مدل اکنون به ربات چت پریمیوم Gemini Advanced مجهز خواهد شد.
چه چیزی Gemini Flash 1.5 را متفاوت می کند؟
Gemini Flash 1.5 در سلسله مراتب سایز درست بالای Nano و درست زیر Pro قرار دارد و ترکیب سرعت و چابکی آن چیزی است که آن را نه تنها از خواهر و برادرش بلکه از سایر مدل های هوش مصنوعی متمایز می کند.
Flash 1.5 نه تنها از نظر توانایی در درک متن، تصاویر، ویدئو و گفتار سریع و چشمگیر است، بلکه ارزان است، حداقل در مقایسه با Pro، که هزینه آن 20 برابر بیشتر است.
Demis Hassabis، مدیر عامل Google DeepMind می گوید: «ما از بازخورد کاربران می دانیم که برخی از برنامه ها به تأخیر کمتر و هزینه خدمات کمتری نیاز دارند. او خاطرنشان کرد که فلش «سبکتر از 1.5 Pro است و به گونهای طراحی شده است که سریع و کارآمد برای سرویس دهی در مقیاس باشد» و افزود: «این الهام بخش ما برای ادامه نوآوری است.
یک مقایسه خوب، حداقل از نظر سرعت، با GPT-4o اخیراً اعلام شده OpenAI است. این بسیار سریع، ذاتا چند وجهی است و برای تعامل در زمان واقعی طراحی شده است. با این حال، به نظر می رسد Gemini Flash 1.5 از نظر استدلال، مدلی کمتر توانا باشد.
در مورد پنجره زمینه بزرگ چطور؟
مانند سایر مدلهای خانواده جمینی، Flash 1.5 با یک پنجره بزرگ میلیون سکهای عرضه میشود و این وعده را میدهد که میتوانید واقعاً از آن استفاده کامل کنید. در مقایسه، GPT-4o دارای یک پنجره محتوایی 128000 توکن و Claude 3 دارای 200000 توکن است.
چیزی که یک پنجره زمینه گسترده را بسیار مهم می کند، توانایی حفظ حجم وسیعی از اطلاعات در یک مکالمه است. وقتی صحبت از تجزیه و تحلیل محتوای غیر متنی به میان می آید، بسیار مهم است، زیرا ارزش یک تصویر 1000 کلمه است و ارزش یک ویدیو حتی بیشتر است.
او همچنین توسط برادر بزرگترش Gemini Pro 1.5 آموزش دیده است. Hassabis گفت: این “از طریق فرآیندی به نام “تقطیر” انجام می شود، جایی که ضروری ترین دانش و مهارت ها از یک مدل بزرگتر به یک مدل کوچکتر و کارآمدتر منتقل می شود.
او گفت که در نتیجه این فرآیند، «1.5 Flash در خلاصهسازی، برنامههای چت، افزودن زیرنویسهای تصویری و ویدیویی، استخراج دادهها از اسناد و جداول طولانی و موارد دیگر برتری دارد».
از آنجایی که این مدلها، از جمله مدلهای سریعتر اما کوچکتر مانند Flash، توانایی درک بیشتر از متن را به دست میآورند، پنجره زمینه افزایش یافته حتی مهمتر میشود.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide