با Mochi-1، جدیدترین مدل ویدیوی هوش مصنوعی رایگان و منبع باز آشنا شوید

پروین میرمیران22 اکتبر 2024آخرین به روز رسانی: 22 اکتبر 2024

0 2,668 خواندن این مطلب 3 دقیقه زمان میبرد

با Mochi-1، جدیدترین مدل ویدیوی هوش مصنوعی رایگان و منبع باز آشنا شوید

جنگ های مولد هوش مصنوعی به طور فزاینده ای در حال افزایش هستند زیرا شرکت های بیشتری مدل های خود را عرضه می کنند. به نظر می رسد که ویدیوی مولد بزرگترین میدان نبرد موجود است و Genmo رویکرد متفاوتی را در پیش گرفته است.

این شرکت مدل Mochi-1 را به‌عنوان «پیش‌نمایش پژوهشی» منتشر می‌کند، اما مدل جدید رندر ویدیو تحت مجوز Apache 2.0 قرار می‌گیرد و آن را منبع باز می‌کند و می‌توان آن را جدا کرد و دوباره کنار هم قرار داد.

این همچنین به این معنی است که استفاده از Mochi-1 رایگان است و می توانید آن را برای خودتان در سایت Genmo امتحان کنید. زیبایی منبع باز بودن آن همچنین به این معنی است که در آینده بر روی تمام پلتفرم های معمولی AI مولد در دسترس خواهد بود و ممکن است روزی بر روی یک رایانه بازی مناسب اجرا شود.

این یک بازار بسیار رقابتی را با خدمات مختلف ارائه می دهد که قابلیت های متنوعی را ارائه می دهد، از جمله الگوهای Haiper، واقع گرایی از Kling یا Hailuo، و جلوه های سرگرم کننده از Pika Labs و Dream Machine. Genmo می‌گوید تمرکزش بر آوردن فناوری‌های پیشرفته به منبع باز است.

Genmo مدل ویدیویی هوش مصنوعی رایگان را منتشر کرد

(اعتبار تصویر: Genmo Mochi-1/AI ایجاد شد)

پس چرا از مدل Genmo نسبت به سایر مدل های ارائه شده در حال حاضر استفاده کنیم؟ همه چیز به حرکت بستگی دارد. ما با Paras Jain، مدیر عامل Genmo صحبت کردیم، او توضیح داد که حرکت یک معیار مهم در مقایسه مدل ها است.

او توضیح می‌دهد: “من فکر می‌کنم برای مدت بسیار طولانی، اساساً تنها ویدیوی غیرقابل جذب ویدئویی بود که حرکت نمی‌کرد. و احساس می‌کردم بسیاری از ویدئوهای هوش مصنوعی از این “افکت عکس زنده” رنج می‌برند.” فکر می‌کنم ما این را در مدل‌های تاریخی‌مان داشتیم؛ این‌گونه بود که فناوری باید تکامل می‌یابد. اما ویدیوهای حرکتی، قبل از هر چیز، بزرگترین چیزی بود که روی آن سرمایه‌گذاری کردیم.»

این نسخه اول یک مدل انتشار ترانسفورماتور 10 میلیارد پارامتری به طرز شگفت‌آوری کوچکی است که از یک رویکرد ناهمزمان جدید برای بسته‌بندی جلوه‌های بیشتر در یک بسته کوچک استفاده می‌کند.

جین گفت که آنها Mochi-1 را به طور خاص بر روی ویدئو به جای رویکرد ترکیبی سنتی تر ویدئو، تصویر و متن آموزش دادند. این به او اجازه داد تا فیزیک را بهتر بفهمد.

سپس تیم کار کرد تا اطمینان حاصل کند که مدل می تواند دقیقاً بفهمد مردم چه کاری می خواهند انجام دهند. او به ما گفت: ما واقعاً سرمایه گذاری زیادی کرده ایم تا آنچه شما می گویید دنبال کنیم و فوراً رعایت کنیم.

Genmo Mochi-1

(اعتبار تصویر: Genmo Mochi-1/AI ایجاد شد)

Genmo امیدوار است که Mochi-1 بتواند بهترین تولید ویدیوی منبع باز را در کلاس خود ارائه دهد، اما ویدیوها در حال حاضر به عنوان بخشی از یک پیش نمایش تحقیقاتی جدید که امروز راه اندازی شد به 480p محدود شده است.

همانطور که جین اشاره می کند، تاکید زیادی بر تعهد و به رسمیت شناختن سریع صورت گرفت. Genmo این را با یک مدل زبان بینایی به عنوان داوری که DALL-E 3 از Open AI را دنبال می کند، مقایسه می کند.

آیا Mochi-1 را آزمایش خواهید کرد؟ به ما اطلاع دهید. قطعاً در حال ورود به یک میدان شلوغ است، اما ماهیت منبع باز آن می تواند فراتر از برخی از رقبای خود باشد.

این حتی تنها مدل ویدیویی منبع باز هوش مصنوعی نیست که این هفته منتشر می شود. شرکت هوش مصنوعی Rhymes آلگرو را به عنوان یک “مدل متن به ویدئو متن باز کوچک و موثر” منتشر کرده است. همچنین با مجوز آپاچی در دسترس است، اگرچه در 15 فریم در ثانیه و 720p به جای 24 فریم در ثانیه و 420p Mochi-1.

هیچ‌یک از مدل‌ها هنوز روی لپ‌تاپ شما اجرا نمی‌شوند، اما زیبایی منبع باز، همانطور که جین به ما می‌گوید، این است که روزی کسی آن را طوری تغییر می‌دهد که روی سخت‌افزار کم‌مصرف اجرا شود، و ما ویدیوهای آفلاین می‌سازیم.