من Runway Gen-3 Turbo را امتحان کردم و به من این امکان را داد که در چند ثانیه ویدیوهای هوش مصنوعی واقعی بسازم
پلتفرم پیشرو ویدیویی هوش مصنوعی Runway نسخه جدید توربو مدل Gen-3 خود را منتشر کرده است. این امکان ایجاد سریع ویدیو از تصاویر را فراهم می کند.
Gen-3 برای اولین بار در اوایل این ماه به عنوان یک مدل تبدیل متن به ویدیو عرضه شد، اما قابلیت تصویر به ویدیو نیز به زودی اضافه شد و اکنون با توربو همه چیز سریعتر شده است.
برای استفاده از Turbo، کافی است آن را از فهرست موجود در ابزار ایجاد ویدیو انتخاب کنید، هر تصویری را اضافه کنید (من متوجه شدم که Midjourney در اینجا به خوبی کار می کند)، و یک پیام متنی اختیاری اضافه کنید که حرکت دوربین و حرکت شخصیت را توصیف می کند.
در آزمایش من، Turbo توانست از اولین دستور به یک ویدیو ده ثانیه ای کاملاً رندر شده در تنها 15 ثانیه برسد، بدون اینکه تغییر قابل توجهی در کیفیت داشته باشد. ما ویدیوی هوش مصنوعی تقریباً بلادرنگ داریم.
ما Gen-3 Turbo را آزمایش می کنیم
Gen-3 Alpha Turbo Image to Video اکنون در دسترس است و می تواند 7 برابر سریعتر با نصف قیمت Gen-3 Alpha اصلی تولید کند. همه در حالی که عملکرد در بسیاری از موارد استفاده منطبق است. Turbo برای همه برنامه ها، از جمله آزمایشی برای کاربران رایگان، در دسترس است.…15 آگوست 2024
من پنج دستور برای Midjourney ایجاد کردم تا صحنههای مختلفی را ایجاد کنم که تصویر ابتدایی ویدیو را تشکیل میدهند و از راهنمای فرمان Runway برای ایجاد یک دستور متنی مرتبط استفاده کردم.
تمام کلیپ ها ده ثانیه هستند. ویدیوها می توانند پنج یا ده ثانیه طول بکشند، اما هیچ راهی برای فراتر از نسل اول وجود ندارد. می توانید از آخرین فریم ویدیوی ایجاد شده اسکرین شات بگیرید و از آن به عنوان ورودی برای یک کلیپ 10 ثانیه ای جدید استفاده کنید، اما من در اینجا آن را ساده نگه داشته ام.
Runway میگوید که با مدل جدید توربو، پیشرفتها، مکانیسمهای کنترلی و فرصتهای تعامل بیدرنگ در این مدل به وجود خواهد آمد.
1. درخت باستانی
هشدار در اواسط سفر: «یک درخت بلوط کهنسال بزرگ و خرخر با ریشههای پیچ خورده و شاخههایی که مانند بازوها دراز شدهاند و در سپیدهدم به تنهایی در یک چمنزار مه آلود ایستادهاند.»
در دستور عمل Runway آمده است: “دوربین از پایه درخت بلوط کهنسال شروع می شود و به آرامی به سمت بالا می رود تا ارتفاع کامل درخت را در پس زمینه سپیده دم مه آلود نشان دهد. تمرکز روی جزئیات پیچیده پوست، ریشه ها، و با شروع طلوع خورشید شاخه می شود.”
این درخواست باید توانایی Runway و Midjourney را برای مدیریت بافتهای پیچیده و حرکات تدریجی دوربین آزمایش کند. من فکر می کنم او به خوبی از پس هر دو برمی آید.
2. بازار روستا
هشدار اواسط سفر: «یک بازار روستایی شلوغ و پر جنب و جوش با فروشندگانی که میوهها، سبزیجات و گلهای رنگارنگ میفروشند، جایی که مردم در هر سنی در زیر آسمان روشن و آفتابی با هم تعامل دارند.»
کنش کت واک: “دوربین در بازار پرجنبوجوش روستا حرکت میکند و تعاملات پر انرژی را هنگام چانهزنی و خندیدن مردم به تصویر میکشد. تمرکز بین فروشندگانی که کالاهای خود را به نمایش میگذارند و مشتریانی که در حال خرید هستند، تغییر میکند و بر فضای پر جنب و جوش بازار تاکید میکند.”
در اینجا می بینیم که آیا هوش مصنوعی می تواند صحنه های پویا و انسان محور را با حرکت و تعامل زیاد اداره کند یا خیر. همچنین باید ظاهر تصویر را در سراسر صحنه حفظ کند.
3. چشمگیر
فیلم گرفته شده در طول سفر: “زنی جوان در حال ضبط یک وبلاگ در اتاقی دنج و پر نور پر از گیاهان، کتاب ها و دکورهای ملایم، با نور حلقه و دوربین جلوی او.”
اکشن Catwalk: “دوربین در حالی که اینفلوئنسر در اتاق دنج خود حرکت می کند، نور و دوربین را تنظیم می کند، دنبال می کند و سپس شروع به ضبط وبلاگ خود می کند. شات بر حالات چهره او و فضای گرم و دعوت کننده محل تمرکز دارد.”
با این اعلان، آزمایش می کنیم که آیا هوش مصنوعی می تواند بیان انسان را تقلید کند و حرکات دست Runway را پردازش کند. خوب بود اما کامل نبود، با کمی غیرواقعی.
4. سفر با قطار
اعلان میان سفر: “یک قطار خوش منظره از میان زمین های کوهستانی در طول ساعت طلایی، جایی که مسافران منظره خیره کننده را از پنجره تماشا می کنند.”
اقدام در مسیر: “دوربین از داخل قطار شروع میشود و روی مسافرانی تمرکز میکند که با نور ساعت طلایی از پنجره به بیرون نگاه میکنند، سپس به نمای بیرونی تغییر میکند و مناظر زیبای کوهستانی را در حالی که قطار در طول ساعت طلایی از میان منظره سر میخورد، ثبت میکند.”
این آزمایش به Runway نیاز دارد که بین یک عکس به عکس بعدی، الهام گرفته از تصویر و تلاش برای حفظ همان حس، یک انتقال ایجاد کند. نزدیک بود اما فکر می کنم بهتر بود بدون تصویر اولیه یک متن به ویدیو تغییر مسیر می داد.
5. یک جشنواره موسیقی
تصویر گرفته شده در طول سفر: “یک فستیوال موسیقی در فضای باز سرزنده در هنگام غروب، که در آن جمعیتی از مردم می رقصند، صحنه با نورهای رنگارنگ روشن شده است و یک گروه موسیقی با انرژی اجرا می کند.”
اکشن تریبون: “دوربین روی جمعیت پرانرژی در جشنواره موسیقی حرکت می کند و رقص و چراغ های صحنه پر جنب و جوش گروه را هنگام اجرا به تصویر می کشد. تمرکز از صحنه به جمعیت تغییر می کند و هیجان و انرژی جمعی رویداد را برجسته می کند.”
در نهایت، میخواهیم ببینیم که Runway چگونه صحنههای پیچیده و پرانرژی را با چندین نقطه اکشن کنترل میکند. رقصندگان کار بسیار خوبی انجام دادند، البته کمی مشابه.
افکار نهایی
توانایی تولید سریع ویدیو یک تغییر قابل توجه برای Runway است. همچنین به حالت بالقوه با وضوح بالاتر در آینده اشاره می کند که در آن می توانید نسل های ناموفق را ارتقا دهید.
ویدیوی هوش مصنوعی تنها در یک سال پیشرفت زیادی کرده است. به جایی رسیدیم که بتوانیم یک فیلم کوتاه از کلیپ های ده ثانیه ای بسازیم و تقریبا واقعی به نظر برسیم. هر نسل جدید رئالیسم تصویر و حرکت را بهبود می بخشد.
توربو کل این فرآیند را سریعتر می کند و امکان تکرار سریع را فراهم می کند. این نیز مفید است زیرا نسبت کلیپ های قابل استفاده به گیره های غیرقابل استفاده هنوز حدود 5:1 است.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide