OpenAI به تازگی ژنراتور پیشرفته تصویر را در ChatGPT-4- معرفی کرده است

Google Gemini ، پیشرفته ترین مدل هوش مصنوعی غول فناوری را تا به امروز معرفی کرد. گفته می شود که آخرین مدل ، که توانایی استدلال پیشرفته ، کفایت کدگذاری و عملکرد چند حالته دارد ، می تواند اطلاعات پیچیده را تجزیه و تحلیل کند ، تفاوت های ظریف متنی را ترکیب کند و از دقت بی سابقه ای برخوردار باشد.
طبق وبلاگ رسمی Google ، آخرین پیشرفت های این مدل با ترکیب یک مدل اساسی به طور قابل توجهی بهبود یافته با تکنیک های پس از آموزش بدست می آید.
گزارش شده است که Gemini 2.5 در آزمون نهایی بشریت ، معیارهای ریاضی و علوم را با نمره 18.8 ٪ رهبری می کند ، مجموعه ای از داده هایی که برای ارزیابی توانایی هوش مصنوعی در پرداختن به سؤالات مبتنی بر اطلاعات پیچیده طراحی شده است. برای مقایسه ، الگوی تحقیقات عمیق OpenAi می تواند 26 ٪ از امتحان نهایی بشریت را تکمیل کند.
عملکرد برنامه نویسی برتر
گفته می شود Gemini 2.5 صلاحیت قابل توجهی را در زمینه برنامه نویسی نشان می دهد.
این خبر خوبی برای کاربران یا توسعه دهندگان متوسط است. این مدل به مهارت های پیشرفته احتیاج ندارد ، زیرا این مدل در ایجاد برنامه های وب به چالش کشیدن و برنامه های کد واسطه ای و همچنین تبدیل کد و ویرایش بسیار عالی است.
به عنوان مثال ، در SWE-BENCH ، یک زیر مجموعه SWE-BENCH از زیر مجموعه SWE-Bench از یک زیرنویس SWE-Bench تأیید شده توسط یک انسان تأیید شده است که توانایی مدل های AI را در حل مشکلات نرم افزاری دنیای واقعی با اطمینان تر ارزیابی می کند. استاندارد صنعت برای ارزیابی کد عامل ، نمرات Gemini 2.5 Pro با نصب عامل ویژه 63.8 ٪.
از ژانویه سال 2025 ، اگرچه غزل Claude 3.5 به روز شده 49 ٪ بود ، اما هنوز هیچ مدلی روی SWE-BENCH تکمیل نشده بود.
درک زمینه چند منظوره و گسترش یافته
Gemini 2.5 برای درک مقادیر زیادی از داده ها در منابع مختلف اطلاعات از جمله متن ، صدا ، تصاویر ، فیلم ها و حتی فروشگاه های کد و برای رفع مشکلات پیچیده طراحی شده است.
این مدل دارای چند مددکاری محلی است و از یک پنجره متن تا 1 میلیون سکه پشتیبانی می کند ، Google قصد دارد در آینده نزدیک آن را تا 2 میلیون سکه گسترش دهد ، اما یک جدول زمانی مشخص اعلام نشده است.
Getons و محتویات بادگیر
توکن ها و ویندوزهای زمینه دو مفهوم لازم برای درک نحوه کار و تولید هوش مصنوعی هستند.
بنابراین ، سکه چیست؟ سکه کوچکترین واحد داده یک مدل AI است. بسته به طراحی مدل ، یک سکه می تواند چیزی را به سادگی یک کلمه فردی یا یک شخصیت واحد نشان دهد. همچنین می تواند بخشی از یک کلمه یا نگارشی باشد.
به عنوان مثال ، “گربه از روی حصار پرید و به سرعت ناپدید شد.” 12 سکه. این گسل به هوش مصنوعی اجازه می دهد تا به طور مؤثر متن را تجزیه و تحلیل و تولید کند.
نتایج پنجره زمینه 2 میلیون سکه
پنجره زمینه به میزان اطلاعاتی که یک مدل AI می تواند در یک زمان پردازش کند ، اشاره دارد. شما می توانید از این موضوع به عنوان حافظه کوتاه مدت مدل فکر کنید ، که دستور جتون را که هوش مصنوعی در مورد یک پاسخ فکر می کند ، پوشش می دهد. اندازه پنجره زمینه تعیین می کند که از قبل مدل چقدر می تواند برای تولید خروجی های مرتبط و متنی سازگار استفاده کند.
به عنوان مثال ، با استفاده از جمله قبلی: “گربه از روی حصار پرید و به سرعت ناپدید شد.” اگر یک مدل AI دارای یک پنجره زمینه محدود با 5 سکه باشد ، فقط قسمت آخر ورودی را پردازش می کند.
بنابراین ، “چه کسی حصار را پرتاب کرد و به سرعت ناپدید شد؟” از آنجا که این مدل فاقد دسترسی به قسمت اول جمله است ، ممکن است نتواند به درستی “گربه” را به عنوان یک موضوع تعریف کند.
اگر Google پنجره زمینه های 2.5 را به 2 میلیون سکه افزایش دهد. این ظرفیت گسترده به مدل اجازه می دهد تا هنگام ایجاد پاسخ ، اطلاعات زیادی را در نظر بگیرد و ذخیره کند.
در اصل ، هرچه پنجره زمینه بزرگتر باشد ، چیز دیگری برای پردازش خواسته های جامع ، که باعث ایجاد خروجی های سازگار ، مرتبط و مفید تر می شود.
برای مقایسه ، تعداد کلمات ترکیبی سه گانه “ارباب حلقه ها” تقریباً 500000 کلمه است. این بدان معنی است که شما می توانید در زمینه Gemini 2.5 Pro ، که فقط 1 میلیون سکه است ، به کل سه گانه دست یابید.
قابلیت استفاده و نمای آینده
Gemini 2.5 Pro Experimental Model اکنون در استودیوی Google AI و برنامه Gemini برای مشترکان پیشرفته Gemini در دسترس است. انتشار Gemini 2.5 Pro Experimental مشترکانی را ارائه می دهد که 20 دلار در هر ماه با محدودیت نرخ بالاتر برای برنامه های مقیاس تولید پرداخت می کنند.