متا در شرف عرضه بزرگترین مدل Llama خود است – در اینجا دلیل این امر بزرگ است

پروین میرمیران2 جولای 2024آخرین به روز رسانی: 2 جولای 2024

0 2,659 خواندن این مطلب 3 دقیقه زمان میبرد

در آوریل 2024، متا Llama 3 را منتشر کرد، آخرین نسخه از مدل‌های زبان بزرگ مبتنی بر هوش مصنوعی، بر اساس مجموعه داده‌ای حداقل 7 برابر بزرگتر از Llama 2.

Llama 3 که در ابتدا در اندازه پارامترهای 8B و 70B موجود بود، بهتر از Llama 2، Gemma منبع باز Google و Claude Sonnet Anthrophic عمل کرد. از آن زمان، Sonnet دستخوش ارتقاء شده است که آن را به یکی از قدرتمندترین مدل های هوش مصنوعی تبدیل کرده است.

اما اکنون، افشاگری‌ها حاکی از آن است که انتشار قدرتمندترین مدل‌های Llama 3 که با بیش از 400 میلیارد پارامتر آموزش دیده‌اند، مدت‌ها مورد انتظار است. این تنها یکی از تعدادی مدل جدید متا است که روی آن کار می کند و از صدها هزار پردازنده گرافیکی Nvidia H100 استفاده می کند.

کارآمد اما قدرتمند

📝 WhatsApp beta 2.24.14.7 برای اندروید: چه چیزی جدید است؟ واتس اپ در حال کار بر روی این ویژگی برای انتخاب مدل Meta AI Llama است و این ویژگی در به روز رسانی آینده در دسترس خواهد بود! https://t.co/fInfKYk8Oo pic.twitter.com/eVqWfJ1wGA26 ژوئن 2024

در آزمایش اولیه، Llama 3 400B تنظیم شده توسط دستورالعمل، امتیاز 86.1 را در معیار MMLU کسب کرد. این آن را با عملکرد GPT-4 با کمتر از نیمی از پارامترها برابر می کند.

در اینجا اطلاعات فنی زیادی برای توضیح وجود دارد، بنابراین بیایید در مورد اینکه چرا این مهم است صحبت کنیم.

به بیان ساده، مدل‌های زبان بزرگ با پارامترهای بیشتر همیشه در معیارها و وظایف دنیای واقعی بهتر عمل می‌کنند. اما این واقعیت که Llama 3 400B می تواند تقریباً با امتیاز MMLU GPT-4 با کمتر از 50 درصد پارامترها برابری کند، نشان می دهد که متا به اندازه کافی در معماری و آموزش مدل پیشرفت کرده است که OpenAI را برای پول خود به ارمغان آورده است.

با دستیابی به عملکرد برابر با پارامترهای کمتر، انتظار می رود Llama 3 400B از نظر منابع محاسباتی، مصرف انرژی و هزینه بسیار کارآمدتر از ChatGPT 4 OpenAI باشد.

مزیت منبع باز

(اعتبار تصویر: آینده)

یکی دیگر از دلایل مهمی که باعث می‌شود مردم نسبت به Llama 3 بسیار هیجان‌زده باشند این است که تحت مجوز باز برای تحقیقات و استفاده تجاری منتشر شده است. با این حال، هنوز مشخص نیست که آیا 400B با همان مجوز باز عرضه خواهد شد یا خیر.

اگر به عنوان یک مدل باز منتشر شود، این قابلیت‌های زبانی پیشرفته اکنون به‌طور رایگان در اختیار محققان و توسعه‌دهندگان در چندین پلتفرم ابری و اکوسیستم‌ها قرار می‌گیرد و نوآوری را سرعت می‌بخشد و کاربردهای جدیدتر فناوری را امکان‌پذیر می‌کند.

این واقعیت که مدل جدید 400B قدرت کافی برای رقابت با ChatGPT 4 را دارد، قدرت زیادی را در اختیار محققان قرار می دهد. این امکان توسعه سریعتر برنامه های کاربردی هوش مصنوعی زبان پیشرفته را بدون تکیه بر APIهای اختصاصی گران قیمت فراهم می کند.

آنچه تاکنون می دانیم

متا AI از زمان انتشار مطبوعاتی اولیه خود در مورد Llama 3 در 18 آوریل به عرضه مدل 400B اشاره کرده است. او در آن زمان نوشت: «بزرگ‌ترین مدل‌های ما بیش از 400 بایت پارامتر دارند، و در ماه‌های آینده چندین مدل را با قابلیت‌های جدید از جمله چندوجهی بودن، توانایی صحبت به چند زبان، پنجره زمینه بسیار طولانی‌تر و وی افزود: «ما آن را راه اندازی خواهیم کرد.»

از آن زمان، اینترنت مملو از نظریه ها و ایده ها در مورد تاریخ عرضه احتمالی مدل های 400B بوده است. اگرچه افراد متا تایید کرده‌اند که توسعه Llama 3 400B قبلاً تکمیل شده است، هنوز تاریخ انتشار رسمی اعلام نشده است.

با این حال، کاربران واتساپ بتا در اندروید 2.24.14.7 گزینه جدیدی را برای آزمایش مدل Llama 3-405B برای هوش مصنوعی متا دیدند. در حالی که این گزینه در حال حاضر فقط برای کاربران بتا در دسترس است و محدودیت های قابل توجهی در حجم استفاده وجود دارد، کافی است تا مردم را برای انتشار کامل هیجان زده کند، احتمالاً در اواخر جولای یا آگوست 2024.