با Mochi-1، جدیدترین مدل ویدیوی هوش مصنوعی رایگان و منبع باز آشنا شوید
جنگ های مولد هوش مصنوعی به طور فزاینده ای در حال افزایش هستند زیرا شرکت های بیشتری مدل های خود را عرضه می کنند. به نظر می رسد که ویدیوی مولد بزرگترین میدان نبرد موجود است و Genmo رویکرد متفاوتی را در پیش گرفته است.
این شرکت مدل Mochi-1 را بهعنوان «پیشنمایش پژوهشی» منتشر میکند، اما مدل جدید رندر ویدیو تحت مجوز Apache 2.0 قرار میگیرد و آن را منبع باز میکند و میتوان آن را جدا کرد و دوباره کنار هم قرار داد.
این همچنین به این معنی است که استفاده از Mochi-1 رایگان است و می توانید آن را برای خودتان در سایت Genmo امتحان کنید. زیبایی منبع باز بودن آن همچنین به این معنی است که در آینده بر روی تمام پلتفرم های معمولی AI مولد در دسترس خواهد بود و ممکن است روزی بر روی یک رایانه بازی مناسب اجرا شود.
این یک بازار بسیار رقابتی را با خدمات مختلف ارائه می دهد که قابلیت های متنوعی را ارائه می دهد، از جمله الگوهای Haiper، واقع گرایی از Kling یا Hailuo، و جلوه های سرگرم کننده از Pika Labs و Dream Machine. Genmo میگوید تمرکزش بر آوردن فناوریهای پیشرفته به منبع باز است.
Genmo مدل ویدیویی هوش مصنوعی رایگان را منتشر کرد
پس چرا از مدل Genmo نسبت به سایر مدل های ارائه شده در حال حاضر استفاده کنیم؟ همه چیز به حرکت بستگی دارد. ما با Paras Jain، مدیر عامل Genmo صحبت کردیم، او توضیح داد که حرکت یک معیار مهم در مقایسه مدل ها است.
او توضیح میدهد: “من فکر میکنم برای مدت بسیار طولانی، اساساً تنها ویدیوی غیرقابل جذب ویدئویی بود که حرکت نمیکرد. و احساس میکردم بسیاری از ویدئوهای هوش مصنوعی از این “افکت عکس زنده” رنج میبرند.” فکر میکنم ما این را در مدلهای تاریخیمان داشتیم؛ اینگونه بود که فناوری باید تکامل مییابد. اما ویدیوهای حرکتی، قبل از هر چیز، بزرگترین چیزی بود که روی آن سرمایهگذاری کردیم.»
این نسخه اول یک مدل انتشار ترانسفورماتور 10 میلیارد پارامتری به طرز شگفتآوری کوچکی است که از یک رویکرد ناهمزمان جدید برای بستهبندی جلوههای بیشتر در یک بسته کوچک استفاده میکند.
جین گفت که آنها Mochi-1 را به طور خاص بر روی ویدئو به جای رویکرد ترکیبی سنتی تر ویدئو، تصویر و متن آموزش دادند. این به او اجازه داد تا فیزیک را بهتر بفهمد.
سپس تیم کار کرد تا اطمینان حاصل کند که مدل می تواند دقیقاً بفهمد مردم چه کاری می خواهند انجام دهند. او به ما گفت: ما واقعاً سرمایه گذاری زیادی کرده ایم تا آنچه شما می گویید دنبال کنیم و فوراً رعایت کنیم.
Genmo امیدوار است که Mochi-1 بتواند بهترین تولید ویدیوی منبع باز را در کلاس خود ارائه دهد، اما ویدیوها در حال حاضر به عنوان بخشی از یک پیش نمایش تحقیقاتی جدید که امروز راه اندازی شد به 480p محدود شده است.
همانطور که جین اشاره می کند، تاکید زیادی بر تعهد و به رسمیت شناختن سریع صورت گرفت. Genmo این را با یک مدل زبان بینایی به عنوان داوری که DALL-E 3 از Open AI را دنبال می کند، مقایسه می کند.
آیا Mochi-1 را آزمایش خواهید کرد؟ به ما اطلاع دهید. قطعاً در حال ورود به یک میدان شلوغ است، اما ماهیت منبع باز آن می تواند فراتر از برخی از رقبای خود باشد.
این حتی تنها مدل ویدیویی منبع باز هوش مصنوعی نیست که این هفته منتشر می شود. شرکت هوش مصنوعی Rhymes آلگرو را به عنوان یک “مدل متن به ویدئو متن باز کوچک و موثر” منتشر کرده است. همچنین با مجوز آپاچی در دسترس است، اگرچه در 15 فریم در ثانیه و 720p به جای 24 فریم در ثانیه و 420p Mochi-1.
هیچیک از مدلها هنوز روی لپتاپ شما اجرا نمیشوند، اما زیبایی منبع باز، همانطور که جین به ما میگوید، این است که روزی کسی آن را طوری تغییر میدهد که روی سختافزار کممصرف اجرا شود، و ما ویدیوهای آفلاین میسازیم.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide