متا نسخه Llama 3.2 چند وجهی را منتشر می کند – در اینجا دلیل این موضوع بزرگ است
متا نسخه جدیدی از مدل های زبان بزرگ خانواده Llama را منتشر کرده است. Llama 3.2 به روز شده چند حالته را معرفی می کند و به آن امکان می دهد علاوه بر متن، تصاویر را نیز درک کند. همچنین دو مدل «کوچکتر» جدید را به خانواده می آورد.
لاما مهم است. این به این دلیل نیست که از مدلهای OpenAI یا گوگل قدرتمندتر است، اگرچه رقیب آنها است، بلکه به این دلیل است که منبع باز است و تقریباً برای همه به راحتی قابل دسترسی است.
به روز رسانی چهار اندازه مدل مختلف را معرفی می کند. مدل 1 میلیارد پارامتری به راحتی روی مک بوک ایر M3 با 8 گیگابایت رم اجرا می شود، در حالی که مدل 3 میلیاردی نیز کار می کند، اما به سختی. اینها هر دو فقط متنی هستند، اما میتوانند در طیف وسیعتری از دستگاهها و آفلاین اجرا شوند.
اما موفقیت واقعی با نسخه های پارامتر 11b و 90b Llama 3.2 حاصل شد. اینها اولین مدلهای لاما چند حالته واقعی هستند که برای سخت افزار و حفظ حریم خصوصی بهینه شده اند و بسیار کارآمدتر از مدل های قبلی 3.1 خود هستند. مدل 11b حتی می تواند روی یک لپ تاپ گیمینگ خوب اجرا شود.
چه چیزی لاما را اینقدر مهم می کند؟
دسترسی گسترده، قابلیت پیشرفته و سازگاری لاما آن را متمایز می کند. این ربات چت هوش مصنوعی متا در سراسر اینستاگرام، واتساپ، فیسبوک، عینکهای هوشمند Ray-Ban و هدفونهای Quest پشتیبانی میکند، اما در سرویسهای ابری عمومی نیز قابل دسترسی است تا کاربران بتوانند آن را به صورت محلی دانلود و اجرا کنند یا حتی آن را در محصولات شخص ثالث ادغام کنند.
Groq، یک سرویس استنتاج ابری فوق سریع، نمونه ای از این است که چرا داشتن یک مدل منبع باز یک انتخاب قوی است. من یک ابزار ساده برای خلاصه کردن یک مقاله تحقیقاتی هوش مصنوعی با استفاده از Llama 3.1 70b ایجاد کردم که روی Groq اجرا میشود – خلاصه را سریعتر از آنچه میتوانم عنوان را بخوانم تکمیل کردم.
برخی از کتابخانههای منبع باز به شما امکان میدهند یک رابط ChatGPT مانند در مک خود ایجاد کنید که توسط Llama 3.2 یا مدلهای دیگر، از جمله قابلیتهای تجزیه و تحلیل تصویر در صورت داشتن رم کافی، ایجاد کنید. اما من یک قدم فراتر رفتم و چت ربات پایتون خود را ایجاد کردم که از Ollama API درخواست می کند، که به من اجازه می دهد این مدل ها را مستقیماً در ترمینال اجرا کنم.
مثال های استفاده برای Llama 3.2
یکی از دلایل مهم اهمیت Llama 3.2، پتانسیل آن برای تغییر نحوه تعامل هوش مصنوعی با محیط است، به ویژه در زمینه هایی مانند بازی و واقعیت افزوده. قابلیتهای چند وجهی به این معنی است که Llama 3.2 میتواند ورودی بصری را به همراه متن «دیده» و «درک» کند و امکاناتی مانند NPCهای پویا و مبتنی بر هوش مصنوعی را در بازیهای ویدیویی باز کند.
بازیای را تصور کنید که در آن NPCها نه تنها دیالوگهای از پیش نوشته شده را دنبال میکنند، بلکه میتوانند دنیای بازی را در زمان واقعی درک کنند و هوشمندانه به اقدامات بازیکن و محیط واکنش نشان دهند. به عنوان مثال، یک NPC نگهبان ممکن است بازیکن را ببیند که یک سلاح خاص را در دست دارد و در مورد آن نظر بدهد، یا یک همراه هوش مصنوعی ممکن است به یک تغییر در محیط بازی، مانند ظاهر شدن ناگهانی یک تهدید، واکنشی ظریف و محاوره ای نشان دهد.
علاوه بر بازی، این فناوری می تواند در دستگاه های هوشمند مانند عینک های هوشمند Ray-Ban و هدفون های Quest نیز استفاده شود. تصور کنید که عینک خود را به سمت ساختمان بگیرید و فقط با نگاه کردن به آن از هوش مصنوعی تاریخچه معماری یا جزئیات مربوط به منوی رستوران را بخواهید.
این موارد استفاده هیجانانگیز هستند زیرا ماهیت منبع باز لاما به این معنی است که توسعهدهندگان میتوانند این مدلها را برای برنامههای نوآورانه بیشماری، از آموزش گرفته تا مراقبتهای بهداشتی، سفارشیسازی و مقیاسبندی کنند. برای مثال، هوش مصنوعی میتواند با شناسایی محیط اطراف، به کاربرانی که دارای اختلال بینایی هستند کمک کند.
جدای از استفاده از مدل های متا تولید شده، منبع باز بودن به این معنی است که شرکت ها، سازمان ها و حتی دولت ها می توانند نسخه های سفارشی و تنظیم شده خود را از مدل ها ایجاد کنند. این در حال حاضر در هند برای نجات زبان هایی که در حال انقراض هستند انجام می شود.
روش | تست کیفیت | لاما 3.2 11B | لاما 3.2 90B | کلود 3 – هایکو | GPT-4o-mini |
---|---|---|---|---|---|
تصویر | MMMU | 50.7 | 60.3 | 50.2 | 59.4 |
تصویر | MMMU-Pro، استاندارد | 33.0 | 45.2 | 27.3 | 42.3 |
تصویر | MMMU-Pro، Vision | 23.7 | 33.8 | 20.1 | 36.5 |
تصویر | MathVista | 51.5 | 57.3 | 46.4 | 56.7 |
تصویر | GraphicQA | 83.4 | 85.5 | 81.7 | – |
تصویر | نمودار AI2 | 91.1 | 92.3 | 86.7 | – |
تصویر | DocVQA | 88.4 | 90.1 | 88.8 | – |
تصویر | KVK2 | 75.2 | 78.1 | – | – |
متن | MMU | 73.0 | 86.0 | 75.2 | 82.0 |
متن | ریاضیات | 51.9 | 68.0 | 38.9 | 70.2 |
متن | GPQA | 32.8 | 46.7 | 33.3 | 40.2 |
متن | MGSM | 68.9 | 86.9 | 75.1 | 87.0 |
Llama 3.2 11b و 90b می توانند با مدل های کوچکتر Anthropic مانند Claude 3 Haiku و OpenAI از جمله GPT-4o-mini در تشخیص تصویر و کارهای بصری مشابه رقابت کنند. نسخه 3 بعدی می تواند با مدل های مشابه مایکروسافت و گوگل از جمله Gemini و Phi 3.5-mini در معیار 150 رقابت کند.
اگرچه یک معیار مستقیم نیست، آزمایش خودم از مدل 1b که تایپ را تجزیه و تحلیل میکند و بهبودهای پیشنهادی را ارائه میکند، تقریباً با عملکرد ابزارهای تالیف Apple Intelligence، بدون دسترسی به منوی زمینه مفید، برابری میکند.
دو مدل بینایی، 11b و 90b، می توانند بسیاری از عملکردهایی را که در ChatGPT و Gemini دیده ام، انجام دهند. به عنوان مثال، می توانید عکسی از باغ خود به او بدهید و او می تواند اصلاحات پیشنهادی یا حتی تقویم کاشت را به او ارائه دهد.
همانطور که قبلاً گفتم، عملکرد، اگرچه خوب است، اما بزرگترین نقطه فروش Llama 3.2 نیست. قابلیت دسترسی و سفارشی سازی آن برای انواع موارد استفاده.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide