متا نسخه Llama 3.2 چند وجهی را منتشر می کند – در اینجا دلیل این موضوع بزرگ است

پروین میرمیرانسپتامبر 26, 2024آخرین به روز رسانی: سپتامبر 26, 2024

0 2,691 خواندن این مطلب 4 دقیقه زمان میبرد

متا نسخه Llama 3.2 چند وجهی را منتشر می کند – در اینجا دلیل این موضوع بزرگ است

متا نسخه جدیدی از مدل های زبان بزرگ خانواده Llama را منتشر کرده است. Llama 3.2 به روز شده چند حالته را معرفی می کند و به آن امکان می دهد علاوه بر متن، تصاویر را نیز درک کند. همچنین دو مدل «کوچکتر» جدید را به خانواده می آورد.

لاما مهم است. این به این دلیل نیست که از مدل‌های OpenAI یا گوگل قدرتمندتر است، اگرچه رقیب آن‌ها است، بلکه به این دلیل است که منبع باز است و تقریباً برای همه به راحتی قابل دسترسی است.

به روز رسانی چهار اندازه مدل مختلف را معرفی می کند. مدل 1 میلیارد پارامتری به راحتی روی مک بوک ایر M3 با 8 گیگابایت رم اجرا می شود، در حالی که مدل 3 میلیاردی نیز کار می کند، اما به سختی. اینها هر دو فقط متنی هستند، اما می‌توانند در طیف وسیع‌تری از دستگاه‌ها و آفلاین اجرا شوند.

اما موفقیت واقعی با نسخه های پارامتر 11b و 90b Llama 3.2 حاصل شد. اینها اولین مدلهای لاما چند حالته واقعی هستند که برای سخت افزار و حفظ حریم خصوصی بهینه شده اند و بسیار کارآمدتر از مدل های قبلی 3.1 خود هستند. مدل 11b حتی می تواند روی یک لپ تاپ گیمینگ خوب اجرا شود.

چه چیزی لاما را اینقدر مهم می کند؟

(منبع تصویر: متا)

دسترسی گسترده، قابلیت پیشرفته و سازگاری لاما آن را متمایز می کند. این ربات چت هوش مصنوعی متا در سراسر اینستاگرام، واتس‌اپ، فیس‌بوک، عینک‌های هوشمند Ray-Ban و هدفون‌های Quest پشتیبانی می‌کند، اما در سرویس‌های ابری عمومی نیز قابل دسترسی است تا کاربران بتوانند آن را به صورت محلی دانلود و اجرا کنند یا حتی آن را در محصولات شخص ثالث ادغام کنند.

Groq، یک سرویس استنتاج ابری فوق سریع، نمونه ای از این است که چرا داشتن یک مدل منبع باز یک انتخاب قوی است. من یک ابزار ساده برای خلاصه کردن یک مقاله تحقیقاتی هوش مصنوعی با استفاده از Llama 3.1 70b ایجاد کردم که روی Groq اجرا می‌شود – خلاصه را سریع‌تر از آنچه می‌توانم عنوان را بخوانم تکمیل کردم.

برخی از کتابخانه‌های منبع باز به شما امکان می‌دهند یک رابط ChatGPT مانند در مک خود ایجاد کنید که توسط Llama 3.2 یا مدل‌های دیگر، از جمله قابلیت‌های تجزیه و تحلیل تصویر در صورت داشتن رم کافی، ایجاد کنید. اما من یک قدم فراتر رفتم و چت ربات پایتون خود را ایجاد کردم که از Ollama API درخواست می کند، که به من اجازه می دهد این مدل ها را مستقیماً در ترمینال اجرا کنم.

مثال های استفاده برای Llama 3.2

یکی از دلایل مهم اهمیت Llama 3.2، پتانسیل آن برای تغییر نحوه تعامل هوش مصنوعی با محیط است، به ویژه در زمینه هایی مانند بازی و واقعیت افزوده. قابلیت‌های چند وجهی به این معنی است که Llama 3.2 می‌تواند ورودی بصری را به همراه متن «دیده» و «درک» کند و امکاناتی مانند NPC‌های پویا و مبتنی بر هوش مصنوعی را در بازی‌های ویدیویی باز کند.

جدای از استفاده از مدل های متا تولید شده، منبع باز بودن به این معنی است که شرکت ها، سازمان ها و حتی دولت ها می توانند نسخه های سفارشی و تنظیم شده خود را از مدل ها ایجاد کنند. این در حال حاضر در هند برای نجات زبان هایی که در حال انقراض هستند انجام می شود.

بازی‌ای را تصور کنید که در آن NPC‌ها نه تنها دیالوگ‌های از پیش نوشته شده را دنبال می‌کنند، بلکه می‌توانند دنیای بازی را در زمان واقعی درک کنند و هوشمندانه به اقدامات بازیکن و محیط واکنش نشان دهند. به عنوان مثال، یک NPC نگهبان ممکن است بازیکن را ببیند که یک سلاح خاص را در دست دارد و در مورد آن نظر بدهد، یا یک همراه هوش مصنوعی ممکن است به یک تغییر در محیط بازی، مانند ظاهر شدن ناگهانی یک تهدید، واکنشی ظریف و محاوره ای نشان دهد.

علاوه بر بازی، این فناوری می تواند در دستگاه های هوشمند مانند عینک های هوشمند Ray-Ban و هدفون های Quest نیز استفاده شود. تصور کنید که عینک خود را به سمت ساختمان بگیرید و فقط با نگاه کردن به آن از هوش مصنوعی تاریخچه معماری یا جزئیات مربوط به منوی رستوران را بخواهید.

این موارد استفاده هیجان‌انگیز هستند زیرا ماهیت منبع باز لاما به این معنی است که توسعه‌دهندگان می‌توانند این مدل‌ها را برای برنامه‌های نوآورانه بی‌شماری، از آموزش گرفته تا مراقبت‌های بهداشتی، سفارشی‌سازی و مقیاس‌بندی کنند. برای مثال، هوش مصنوعی می‌تواند با شناسایی محیط اطراف، به کاربرانی که دارای اختلال بینایی هستند کمک کند.

جدای از استفاده از مدل های متا تولید شده، منبع باز بودن به این معنی است که شرکت ها، سازمان ها و حتی دولت ها می توانند نسخه های سفارشی و تنظیم شده خود را از مدل ها ایجاد کنند. این در حال حاضر در هند برای نجات زبان هایی که در حال انقراض هستند انجام می شود.

برای پیمایش افقی انگشت خود را بکشید

روش	تست کیفیت	لاما 3.2 11B	لاما 3.2 90B	کلود 3 – هایکو	GPT-4o-mini
تصویر	MMMU	50.7	60.3	50.2	59.4
تصویر	MMMU-Pro، استاندارد	33.0	45.2	27.3	42.3
تصویر	MMMU-Pro، Vision	23.7	33.8	20.1	36.5
تصویر	MathVista	51.5	57.3	46.4	56.7
تصویر	GraphicQA	83.4	85.5	81.7	–
تصویر	نمودار AI2	91.1	92.3	86.7	–
تصویر	DocVQA	88.4	90.1	88.8	–
تصویر	KVK2	75.2	78.1	–	–
متن	MMU	73.0	86.0	75.2	82.0
متن	ریاضیات	51.9	68.0	38.9	70.2
متن	GPQA	32.8	46.7	33.3	40.2
متن	MGSM	68.9	86.9	75.1	87.0

Llama 3.2 11b و 90b می توانند با مدل های کوچکتر Anthropic مانند Claude 3 Haiku و OpenAI از جمله GPT-4o-mini در تشخیص تصویر و کارهای بصری مشابه رقابت کنند. نسخه 3 بعدی می تواند با مدل های مشابه مایکروسافت و گوگل از جمله Gemini و Phi 3.5-mini در معیار 150 رقابت کند.

اگرچه یک معیار مستقیم نیست، آزمایش خودم از مدل 1b که تایپ را تجزیه و تحلیل می‌کند و بهبودهای پیشنهادی را ارائه می‌کند، تقریباً با عملکرد ابزارهای تالیف Apple Intelligence، بدون دسترسی به منوی زمینه مفید، برابری می‌کند.

دو مدل بینایی، 11b و 90b، می توانند بسیاری از عملکردهایی را که در ChatGPT و Gemini دیده ام، انجام دهند. به عنوان مثال، می توانید عکسی از باغ خود به او بدهید و او می تواند اصلاحات پیشنهادی یا حتی تقویم کاشت را به او ارائه دهد.

همانطور که قبلاً گفتم، عملکرد، اگرچه خوب است، اما بزرگترین نقطه فروش Llama 3.2 نیست. قابلیت دسترسی و سفارشی سازی آن برای انواع موارد استفاده.

اطلاعات بیشتر از راهنمای تام

منبع: tomsguide

پروین میرمیرانسپتامبر 26, 2024آخرین به روز رسانی: سپتامبر 26, 2024

0 2,691 خواندن این مطلب 4 دقیقه زمان میبرد

متا نسخه Llama 3.2 چند وجهی را منتشر می کند – در اینجا دلیل این موضوع بزرگ است

پروین میرمیران

دیدگاهتان را بنویسید لغو پاسخ

4 می نزدیک است: در اینجا 21 مجموعه Lego Star Wars هستند که امسال در حال بررسی آنها هستم

XRP نزدیک به پشتیبانی «نشکن»، آیا Dogecoin (DOGE) در رالی جدید به 0.2 دلار خواهد رسید؟ تست قیمت عمده اتریوم (ETH) در راه است: بررسی بازار کریپتو – U.Today

پورشه ظاهر نمادین اپل را برمی گرداند و عالی به نظر می رسد

شایعه شده است که عینک اپل دارای حرکات دست به سبک ویژن پرو است، اما مارک گورمن در این مورد تردید دارد.

“رهبران رهبران را جذب می کنند”: واکنش مدیر عامل ریپل به گسترش قابل توجه امارات – U.Today

ChatGPT صحبت در مورد “گوبلین” را متوقف نکرده است – در اینجا آنچه در حال رخ دادن است

پورشه زمان نوربرگ رینگ خود را با 911 GT3 Manthey شکست داد: ساعت

دلیل اصلی اینکه چرا رئیس جدید فدرال رزرو می تواند نسبت به بیت کوین نزولی باشد – U.Today

فورد به تازگی سی و سومین فراخوان خود را برای سال 2026 صادر کرد. این بار برای برانکو

نتفلیکس در نهایت ویدیوی عمودی را با برنامه بازطراحی شده آیفون در آغوش می‌کشد: اکنون به چه شکل است