با Hunyuan، مدل ویدیویی منبع باز هوش مصنوعی جدید که با Runway و Sora روبرو می شود، آشنا شوید
به نظر می رسد هر هفته یک مدل ویدیویی جدید هوش مصنوعی ظاهر می شود و آخرین مدل از غول فناوری چینی Tencent یک معامله بزرگ است. Hunyuan کیفیت ویدیو و حرکتی پیشرفته را ارائه می دهد و در عین حال کاملاً متن باز است.
Hunyuan Video یک مدل ترانسفورماتور انتشار پارامتر با 13 میلیارد پارامتر است که می تواند یک پیام متنی ساده بگیرد و آن را به یک ویدیوی 5 ثانیه ای با وضوح بالا تبدیل کند. در حال حاضر مکانهای زیادی برای امتحان کردن آن در خارج از چین وجود ندارد، اما از آنجایی که منبع باز است، تغییر خواهد کرد. یکی از سرویس های FAL.ai قبلاً نسخه ای ایجاد کرده است که می توانید آن را بازی کنید.
ویدیوی نمایشی چشمگیر به نظر می رسد، با سکانس های کوتاه که هر کدام نگاهی به حرکات طبیعی انسان و حیوانات به سبک فوتورئالیستی ارائه می دهد. همچنین کلیپ هایی وجود دارد که سبک های مختلف انیمیشن را نشان می دهد.
برنامههای فعلی که امتحان کردهام حدود 15 دقیقه طول میکشد تا یک ویدیوی 5 ثانیهای را ارائه کنم، بنابراین زمان زیادی برای آزمایش نداشتم، اما آزمایش من نشان میدهد که تقریباً معادل Runway Gen-3 و Luma Labs Dream Machine است. خروجی اما انطباق سریع (حداقل در زبان انگلیسی) چندان خوب نیست.
Hunyuan چگونه کار می کند؟
Hunyuan یک مدل ویدیویی AI منبع باز با 13 میلیارد پارامتر است. این باعث می شود آن را بسیار بزرگتر از مدل های متن باز مشابه، از جمله Mochi-1 چشمگیر Genmo. اما از آنجایی که همه پارامترها یکسان ایجاد نمی شوند، این می تواند بیشتر یک نفخ در عملکرد باشد. برای درک این موضوع به آزمایش بیشتری نیاز است.
مانند هر مدل ویدیویی هوش مصنوعی کار می کند. شما به آن متن یا تصویر می دهید و بر اساس ورودی شما یک ویدیو به شما می دهد. برای دانلود در دسترس است، اما نسخه فعلی به حداقل 60 گیگابایت حافظه GPU نیاز دارد. بنابراین شما به دنبال حداقل یک Nvidia H800/H20 هستید.
این منبع باز است و مانند Mochi-1، احتمالاً تغییراتی وجود دارد که الزامات را کاهش می دهد تا بتوانید آن را روی چیزی مانند RTX4090 اجرا کنید.
Tencent می گوید که توانسته است کیفیت بصری بالا، تنوع حرکتی و پایداری نسل را در طول آزمایش به دست آورد و با ارزیابی های انسانی آن را با تمام مدل های تجاری اصلی برابری می کند. منبع باز بودن به آن مزیتی می دهد که کل جامعه می توانند ویژگی ها را اضافه کنند و مدل را بهبود بخشند.
این شرکت در اسناد گفته است که “این به همه افراد جامعه اجازه می دهد تا ایده های خود را امتحان کنند و اکوسیستم ایجاد ویدیو پویاتر و پر جنب و جوش تر را تقویت کنند.”
Hunyuan چقدر خوب کار می کند؟
من این را در FAL.ai امتحان کردم و متوجه شدم که وفاداری سریع و درک متنی آن از فیزیک به خوبی که در مستندات وعده داده شده بود یا به خوبی Runway، Kling یا Hailuo نیست.
به عنوان مثال، من به او پیشنهاد تست سنتی خود را دادم: «سگ در قطار». این آزمایش میکند که چگونه با یک اعلان کمتر توصیفی و درخواستی که نیاز به درک حرکت و سرعت دارد، برخورد میکنید.
خوب کار کرد، اما خروجی خیلی ساده بود. وقتی همین جهت را با مدلهای دیگر امتحان میکنم، میبینم حرکت سریع در بیرون، فضای داخل قطار شفاف و یک سگ بامزه روی صندلی نشسته است. هونیوان یک سگ به من داد، اما شبیه اتاق انتظار دکتر بود.
Mochi-1 با همان اعلان خروجی قابل مقایسه با Runway و Kling به دست آورد. ممکن است که این فقط یک نسل بد از Hunyuan بود و تلاش مجدد نتیجه بهتری داشت، اما از آنجایی که هر تلاش 15 دقیقه است، وقت نداشتم.