من مدل جدید Hailuo MiniMax تصویر به ویدیو را آزمایش کردم. این یک چیز بسیار خاص است
Hailuo MiniMax در اوایل سال جاری عرضه شد و به سرعت به یکی از بهترین مدلهای هوش مصنوعی تبدیل متن به ویدیو در بازار تبدیل شد. این حرکت واقعی و ایجاد ویدیو با کیفیت بالا را ارائه می دهد – کاملا رایگان.
به نظر من کیفیت خوب بود، اما نبود مدل تصویر به ویدیو عامل محدود کننده ای در مفید بودن آن بود. همچنین با زمان پاسخ آهسته دست و پنجه نرم می کرد، و در حالی که حرکت به طور مداوم خوب بود، واقع گرایی آن گاهی اوقات با هیاهوها مطابقت نداشت.
این شرکت به سرعت در حال توسعه این مدل است، از جمله راهاندازی یک وبسایت و انجمن جدید به زبان انگلیسی. آخرین بهروزرسانی، عرضه نهایی مدل تصویر به ویدیو است که امکان کنترل بیشتر بر نحوه نمایش ویدیو را فراهم میکند.
من این را با یک سری دستورات آزمایش کردم و این اتفاق افتاد.
تست Hailuo MiniMax
برای استفاده حداکثری از مدل تصویر به ویدیو، باید با یک تصویر خوب شروع کنید، بنابراین من به Flux 1.1 Pro از آزمایشگاههای جنگل سیاه روی آوردم.
من به پنج نکته سرگرم کننده رسیدم که به درجات مختلف حرکت نیاز داشت، سپس آنها را با کمک ChatGPT اصلاح کردم تا آنها را تا حد امکان توصیف کنند.
سپس تصاویر به دست آمده را با یک دستور حرکت سفارشی یا فقط تصویر را به عنوان کل درخواست به MiniMax دادم.
1. فضانورد در مریخ
این اعلان توانایی آن را برای کنترل حرکت بالقوه پیچیده در یک محیط فیزیک کمتر از حد معمول (گرانش کم مریخ در طوفان غبار) آزمایش خواهد کرد.
درخواست تصویر: “یک فضانورد تنها در حال راه رفتن بر روی مریخ در طول طوفان گرد و غبار، فیلمبرداری شده به سبک سینمایی دراماتیک. این ترکیب فضانورد را در مرکز قاب، در برابر ابرهای چرخان غبار قرمز نشان می دهد. نور کم و پراکنده است، نور خورشید به سختی در داخل طوفان نفوذ می کند، رنگ آن با رنگ های گرم و زنگ زده قرمز و نارنجی تسلط دارد و فضایی ماجراجویانه و الهام بخش به صحنه می دهد و حس انزوا را در منظره ای بیگانه تداعی می کند زاویه، با جزئیات ظریف مانند صخره های کوبیده شده در پس زمینه، در سراسر مریخ “کوچک بودن فضانورد در مقایسه با زمین او تاکید شده است.”
اخطار اقدام: “فضانوردی که از میان طوفان گرد و غبار در مریخ میگذرد.”
2. صحبت کردن
یک دستور آزمایش معمولی که با Runway و Kling امتحان کردم این است که کسی را وادار به صحبت کنم. در اینجا تصویری از یک زن در حال صحبت ایجاد کردم و از هوش مصنوعی خواستم آن را حرکت دهد.
درخواست تصویر: “زنی جوان در حال سخنرانی متحرک، با سبکی پر جنب و جوش عکاسی خیابانی. ترکیب بندی او را از یک زاویه سه چهارم با عمق میدان کم به تصویر می کشد تا بر حالات چهره تمرکز کند و در عین حال شهر شلوغ پشت سر خود را تار کند. طبیعی است. نور ساعت طلایی درخشش گرمی بر چهره او میافزاید و پالت رنگی ترکیبی از زردهای گرم و آبی ملایم است که حس انرژی و زندگی را ایجاد میکند. در حالی که جزئیات کوچک مانند عابران پیاده و چراغ های بوکه نرم در پس زمینه به فضای شهر کمک می کند.
اعلان حرکت: “گفتار در حال انجام است.”
3. سگ در ساحل
یکی از اولین تصاویر “خوب” هوش مصنوعی که دیدم سگ ها را در حال پریدن در ساحل نشان می داد و یکی از بهترین ویدئوهای نمایشی Sora سگ ها را در حال بازی نشان می داد. بنابراین من از Flux خواستم تصویری از یک سگ در حال حرکت ایجاد کند، سپس از Hailuo برای حرکت دادن آن استفاده کردم.
درخواست تصویر: “سگ شادی که در ساحل بازی می کند، به سبکی عجیب و غریب و نقاشی گرفته شده است. ترکیب بندی اواسط اکشن است که سگ برای گرفتن توپ پرتاب شده می پرد، با پاشیدن آب دریای یخ زده در هوا. نور روشن و درخشان است. طلایی، با نور خورشید در افق، سایههای بلند پالت رنگی پر از قهوهای شنی گرم، آبی لاجوردی دریا و لهجههای طلایی است که فضای شادیبخش را تقویت میکند تا بر شور و شوق سگ تأکید شود جزئیات فنی محو شده اند تا حس حرکت را منتقل کنند.
اعلان حرکت: “دوربین تلفن هوشمند، سگ در حال پریدن در ساحل.”
4. نمایش هواپیماهای بدون سرنشین در لندن
در حالی که فیلمهای پهپاد میتوانند جادویی باشند، اما به دلیل هزینه و پیچیدگی حرکت ازدحام، دامنه آنها محدود است، اما آیا ویدیوی هوش مصنوعی میتواند بهتر عمل کند؟ من همچنین هیچ پیام متنی ندادم، بنابراین همه چیز به تصویر و مدل بستگی دارد.
درخواست تصویر: “نمایش نوری باورنکردنی از پهپاد بر فراز لندن که به سبکی الهام گرفته از نئون ارائه شده است. این ترکیب دارای پهپادهای نورانی است که الگوهای پیچیده ای را در آسمان بر فراز نقاط دیدنی نمادین مانند تاور بریج و شارد ایجاد می کند. نورپردازی کاملاً مصنوعی است. روشن، که از هواپیماهای بدون سرنشین در برابر آسمان شب می آید.” نورهای چند رنگ با نورهای گرم شهر در تضاد هستند. پالت رنگی شامل آبی های پر جنب و جوش، بنفش و سبز است که به فضای آینده و جادویی می افزاید و تصویر بیننده را به تصویر می کشد. تخیل با نوردهی طولانی که برای ایجاد مسیرهای نورانی و درخشش در رودخانه تیمز استفاده میشود، از نقطهای بلند که مشرف به منظره شهر است، با جزئیات فنی مانند انعکاس عکس گرفته شده است.
5. ماشین مسابقه ای در کوه
هر مدل ویدیویی هوش مصنوعی که امتحان کردهام با حرکت خودرو مشکل دارد. پس بیایید ببینیم که این خودرو تا چه اندازه با ظاهر نه چندان خوب یک خودروی اسپرت مسابقه ای کنار می آید.
اعلان تصویر: “یک ماشین مسابقه ای شیک در حال پرتاب به سمت جاده کوهستانی پرپیچ و خم، به سبکی فوق واقع گرایانه. ترکیب بندی ماشین را در میانه پیچ، با تاری حرکت در پس زمینه برای تاکید بر سرعت آن نشان می دهد. نور طبیعی است، همراه با نور خورشید. از میان درختان عبور میکند و روی جاده میچرخد.” پالت رنگی که سایه میاندازد شامل رنگ قرمز روشن خودرو در تضاد با سبز سرسبز جنگل اطراف و خاکستری ملایم آسفالت است که هیجان را برمیانگیزد. تصویر به خودرو نگاه میکند. یک زاویه جانبی پویا، تقریباً همسطح با خودرو، که حس حرکت و چابکی را به تصویر میکشد: «جزئیات فنی مانند فوکوس دقیق و کنترل عمق میدان بر دقت و قدرت خودرو تأکید میکند، صحنهای که جاده پرپیچوخم در کوهستان ناپدید میشود. “
اعلان حرکت: “دوربین ثابت، اتومبیل رانی در دوردست.”
افکار نهایی
Hailuo MiniMax قبلاً چشمگیر بود. در حالی که منتظر تکمیل این موارد بودم، به برخی از نسلهای متن به ویدئوی قبلی خود و نمونههایی از دیگران نگاه کردم – و این یکی بسیار پیشرفته است. حرکت از تصویر به ویدیو این را یک قدم جلوتر می برد.
یکی از چیزهایی که واقعاً برجسته است این است که چگونه به خوبی با حرکت ثابت در طول ویدیوی شش ثانیه ای که در هر درخواست ایجاد می کند، کنترل می کند. من از اینکه مدل چگونه حرکات دست را در تست “زن صحبت می کند” به خوبی انجام می داد شگفت زده شدم.
کاملاً کامل نیست. توپ ناپدید می شود و سگ به نظر می رسد که نژادهایش را در نیمه راه عوض می کند، و فضانورد در ابتدا نمایشی را انجام می دهد – اما این بهتر از بسیاری از مدل های ویدیویی هوش مصنوعی است که من امتحان کرده ام.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide