من Vidu 1.5 را آزمایش کردم، یک بازیکن جدید بزرگ در فضای ویدیویی هوش مصنوعی

پروین میرمیران13 نوامبر 2024آخرین به روز رسانی: 13 نوامبر 2024

0 2,670 خواندن این مطلب 3 دقیقه زمان میبرد

من Vidu 1.5 را آزمایش کردم، یک بازیکن جدید بزرگ در فضای ویدیویی هوش مصنوعی

Vidu یک پلت فرم ویدئویی مبتنی بر هوش مصنوعی در چین است که امیدوار است نه تنها با دیگر بازیکنان برجسته مانند Runway و Kling، بلکه با Sora قدرتمند و هنوز منتشر نشده OpenAI رقابت کند.

این اولین ابزار ویدئویی هوش مصنوعی است که توسط Shengshu توسعه داده شده است که “ثبات چند نهاد” را اضافه می کند. این ویژگی به شما امکان می دهد تصاویر نامرتبط را با هم ترکیب کنید تا یک ویدیوی منسجم جدید ایجاد کنید. این پس از یک مطالعه اخیر نشان داد که مدل‌های ویدیویی هوش مصنوعی به جای اینکه بفهمند چگونه کار می‌کنند، از فیزیک در تصاویر تقلید می‌کنند.

به عنوان مثال، می توانید یک عکس از خود و یک ماشین تصادفی آپلود کنید. این مدل می تواند شما را پشت فرمان قرار دهد و ماشین را حرکت دهد. مثال دیگری که Vidu ارائه می دهد، اضافه کردن لباس های مختلف به شخصیت با استفاده از تصویر کت یا پیراهن دوم است.

بخش مورد علاقه من در Vidu 1.5 درجه کنترلی است که هنگام قرار دادن ویدیوی هوش مصنوعی به من به عنوان یک سازنده می دهد. من می توانم درجه حرکت، وضوح، مدت زمان و موارد دیگر را سفارشی کنم. من باید آزمایش بیشتری انجام دهم، اما احتمالاً در لیست بهترین سازندگان ویدیوی هوش مصنوعی من خواهد بود.

با Vidu 1.5 چه کاری می توانید انجام دهید؟

(اعتبار تصویر: Vidu 1.5/Artificial Intelligence of the Future)

Vidu 1.5 جدیدترین مدل Shengshu است و دارای حالت چند دارایی و همچنین حالت های معمول متن به ویدئو و تصویر به ویدئو است که سایر پلتفرم ها از آن لذت می برند. شما می توانید یک ویدیو را به گونه ای تنظیم کنید که به صورت واقعی یا به صورت تصویری ارائه شود. حرکت بد نیست.

در قلب این تحول، توانایی همه افراد برای مشارکت در تولید محتوای با کیفیت بالا، باز کردن فرصت‌های جدید و شکستن محدودیت‌های سنتی است.
جیایو تانگ، مدیرعامل شنگشو

توانایی ایجاد کلیپ در 1080p نیز یک گام بزرگ از محدودیت معمول 720p سایر پلتفرم ها است، اما مدل تبدیل متن به ویدیو آن به خوبی Runway، Kling یا MiniMax نیست.

جیایو تانگ، مدیرعامل و یکی از بنیانگذاران فناوری شنگ شو، گفت: «آینده تولید محتوا اینجاست، که توسط امکانات بی حد و حصر هوش مصنوعی تقویت می‌شود. “در قلب این تحول، توانایی همه برای مشارکت در تولید محتوای با کیفیت بالا، باز کردن فرصت‌های جدید و شکستن محدودیت‌های سنتی است.”

سازگاری چند نهادی احتمالاً یکی از خلاقانه‌ترین موارد اضافه شده به ویدیوهای هوش مصنوعی است که در مدتی پیش دیده‌ام. من آن را امتحان کردم و نه تنها به شما اجازه می دهد تا جلوه های بصری ویدیو را دستکاری کنید، بلکه می تواند حرکت کلی را نیز افزایش دهد، به خصوص اگر از آن برای ارائه دیدگاه های مختلف استفاده کنید.

در یک مثال، من سه تصویر از یک اسکیت‌برد سوار به او دادم و پرسپکتیوهای اضافی را برای کمک به ایجاد حرکت روان‌تر هنگام حرکت در امتداد پله‌های چوبی به او اضافه کردم.

در تستی دیگر موفق شدم عکسی از خودم و یک busker به آن بدهم و از روی یک تصویر توانسته یک ماکت نسبتاً دقیق از من در حال نواختن گیتار ایجاد کند!

افکار نهایی

ویدئو 1.5

(اعتبار تصویر: Vidu 1.5/Artificial Intelligence of the Future)

یکی از چیزهایی که باعث شد ویدیوی من در حال نواختن گیتار باشد، ویژگی دیگری به نام «کنترل کاراکتر پیشرفته» بود. به گفته ویدو، این دقت بیشتری را در نحوه حرکت دوربین، تکنیک های سینمایی استفاده شده در خروجی و حرکت کلی در ویدیو ارائه می دهد.

در نهایت می توانید سطح سرعت حرکت را تنظیم کنید. به گفته ویدو، این باعث می شود مدل در خروجی معتبرتر باشد. اساساً می توانید آن را روی حرکت خودکار، کم، متوسط و زیاد تنظیم کنید و خروجی پویاتری ایجاد کنید.

به طور کلی من با Vidu 1.5 تحت تاثیر قرار گرفتم. هنوز کار زیادی برای انجام دادن دارد تا از نظر رئالیسم بصری و حرکت در لبه برتر قرار بگیرد، اما یک مدل بسیار نزدیک و پیشرفته است.

سازگاری چند دارایی آنقدر ویژگی مهمی است که به تنهایی برای جلب توجه به Vidu کافی است و من گمان می‌کنم مدل‌های دیگر در آینده نزدیک سعی در تقلید از آن خواهند داشت.