متا به تازگی یک مدل متن باز GPT-4o را منتشر کرده است – معنی آن در اینجا آمده است
متا به طور عمومی از خانواده جدیدی از مدل های هوش مصنوعی به نام Chameleon رونمایی کرده است که می تواند با ابزارهای تجاری بیشتری مانند Gemini Pro و GPT-4V مقایسه شود.
در اصل پیچ و مهره همه مدل ها را با جزئیات مشخص می کرد. کاغذ این نشان می دهد که Chameleon که در نسخه هایی با 7 میلیارد و 34 میلیارد پارامتر عرضه می شود، توانایی درک و تولید تصاویر و متون را دارد.
متا میگوید آفتابپرست همچنین میتواند ترکیبی از متن و تصاویر (که ممکن است به یکدیگر مرتبط باشند) را پردازش کند و پاسخهای معناداری تولید کند.
بنابراین می توانید از محتویات یخچال خود عکس بگیرید و از آن بپرسید که فقط با موادی که دارید چه چیزی می توانید بپزید. این چیزی است که در مدلهای هوش مصنوعی نسل لاما امکانپذیر نیست و منبع باز را به مدلهای معروف OpenAI و Google نزدیکتر میکند.
پس از انتشار مقاله، تیم تحقیقاتی بنیادی هوش مصنوعی (FAIR) در متا این مدل را به صورت عمومی برای اهداف تحقیقاتی منتشر کرد، البته با برخی محدودیتها.
Chameleon قابلیتهای کلی از جمله عملکرد SOTA در کارهای زیرنویس تصویر را به نمایش میگذارد، از Llama-2 در کارهای فقط متنی بهتر عمل میکند، در حالی که با مدلهایی مانند Mixtral 8x7B و Gemini-Pro رقابت میکند، و رندر غیرمعمول را در یک مدل انجام میدهد. pic.twitter.com/bui0JSdNdn17 مه 2024
نویسندگان مقاله می گویند که رمز موفقیت آفتاب پرست، معماری کاملاً مبتنی بر نشانه آن است. مدل یاد می گیرد که با هم روی تصاویر و متن استدلال کند. با مدل هایی که از رمزگذارهای جداگانه برای هر ورودی استفاده می کنند، این امکان وجود ندارد.
چالشهای فنی که تیم متا باید بر آنها غلبه میکرد، از جمله چالشهای مربوط به پایداری بهینهسازی و مقیاسپذیری. او این کار را با استفاده از روش ها و تکنیک های آموزشی جدید انجام داد.
در نهایت، برای کاربر، این بدان معنی است که Chameleon باید بتواند به راحتی با اعلان هایی که هم خروجی متن و هم خروجی بصری را درخواست می کنند، کنترل کند.
کاربران میتوانند از Chameleon بخواهند که یک برنامه سفر برای تجربه انقلاب تابستانی ایجاد کند، به عنوان مثال، و مدل هوش مصنوعی باید بتواند تصاویر بصری مرتبطی را برای متنی که تولید میکند ارائه کند.
به گفته محققان، بر اساس ارزیابیهای انسانی، آفتابپرست با عملکرد مدلهایی مانند Gemini Pro و GPT-4V زمانی که درخواستها یا خروجیها شامل رشتههای ترکیبی از تصاویر و متن هستند، مطابقت دارد یا از آن فراتر میرود. با این حال، ارزیابیهای مربوط به تفسیر اینفوگرافیکها و نمودارها حذف شدند.
“آنها پیشرفت چشمگیری داشته اند”
مدل متای منتشر شده عمومی فقط می تواند خروجی متن تولید کند و سطوح امنیتی عمداً افزایش می یابد.
با این حال، در ماه می، آرمن آقاجانیان، یکی از کسانی که روی این پروژه کار میکرد، به X نوشت که «آموزش مدلهایش 5 ماه پیش به پایان رسید» و ادعا کرد که «از آن زمان پیشرفت چشمگیری داشتهاند».
برای محققان، آفتاب پرست منبع الهام برای روش های جایگزین برای آموزش و طراحی مدل های هوش مصنوعی است. برای بقیه ما، این بدان معناست که ما یک قدم به داشتن دستیارهای هوش مصنوعی نزدیکتر شدهایم که میتوانند زمینهای را که در آن کار میکنند، بدون نیاز به استفاده از یکی از آن پلتفرمهای بسته، بهتر درک کنند.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide