من Runway Gen-3 Turbo را امتحان کردم و به من این امکان را داد که در چند ثانیه ویدیوهای هوش مصنوعی واقعی بسازم

پروین میرمیران15 آگوست 2024آخرین به روز رسانی: 15 آگوست 2024

0 2,657 خواندن این مطلب 4 دقیقه زمان میبرد

پلتفرم پیشرو ویدیویی هوش مصنوعی Runway نسخه جدید توربو مدل Gen-3 خود را منتشر کرده است. این امکان ایجاد سریع ویدیو از تصاویر را فراهم می کند.

Gen-3 برای اولین بار در اوایل این ماه به عنوان یک مدل تبدیل متن به ویدیو عرضه شد، اما قابلیت تصویر به ویدیو نیز به زودی اضافه شد و اکنون با توربو همه چیز سریعتر شده است.

برای استفاده از Turbo، کافی است آن را از فهرست موجود در ابزار ایجاد ویدیو انتخاب کنید، هر تصویری را اضافه کنید (من متوجه شدم که Midjourney در اینجا به خوبی کار می کند)، و یک پیام متنی اختیاری اضافه کنید که حرکت دوربین و حرکت شخصیت را توصیف می کند.

در آزمایش من، Turbo توانست از اولین دستور به یک ویدیو ده ثانیه ای کاملاً رندر شده در تنها 15 ثانیه برسد، بدون اینکه تغییر قابل توجهی در کیفیت داشته باشد. ما ویدیوی هوش مصنوعی تقریباً بلادرنگ داریم.

ما Gen-3 Turbo را آزمایش می کنیم

Gen-3 Alpha Turbo Image to Video اکنون در دسترس است و می تواند 7 برابر سریعتر با نصف قیمت Gen-3 Alpha اصلی تولید کند. همه در حالی که عملکرد در بسیاری از موارد استفاده منطبق است. Turbo برای همه برنامه ها، از جمله آزمایشی برای کاربران رایگان، در دسترس است.…15 آگوست 2024

من پنج دستور برای Midjourney ایجاد کردم تا صحنه‌های مختلفی را ایجاد کنم که تصویر ابتدایی ویدیو را تشکیل می‌دهند و از راهنمای فرمان Runway برای ایجاد یک دستور متنی مرتبط استفاده کردم.

تمام کلیپ ها ده ثانیه هستند. ویدیوها می توانند پنج یا ده ثانیه طول بکشند، اما هیچ راهی برای فراتر از نسل اول وجود ندارد. می توانید از آخرین فریم ویدیوی ایجاد شده اسکرین شات بگیرید و از آن به عنوان ورودی برای یک کلیپ 10 ثانیه ای جدید استفاده کنید، اما من در اینجا آن را ساده نگه داشته ام.

Runway می‌گوید که با مدل جدید توربو، پیشرفت‌ها، مکانیسم‌های کنترلی و فرصت‌های تعامل بی‌درنگ در این مدل به وجود خواهد آمد.

1. درخت باستانی

(منبع تصویر: Runway/Midjourney/Future AI)

هشدار در اواسط سفر: «یک درخت بلوط کهنسال بزرگ و خرخر با ریشه‌های پیچ خورده و شاخه‌هایی که مانند بازوها دراز شده‌اند و در سپیده‌دم به تنهایی در یک چمنزار مه آلود ایستاده‌اند.»

در دستور عمل Runway آمده است: “دوربین از پایه درخت بلوط کهنسال شروع می شود و به آرامی به سمت بالا می رود تا ارتفاع کامل درخت را در پس زمینه سپیده دم مه آلود نشان دهد. تمرکز روی جزئیات پیچیده پوست، ریشه ها، و با شروع طلوع خورشید شاخه می شود.”

این درخواست باید توانایی Runway و Midjourney را برای مدیریت بافت‌های پیچیده و حرکات تدریجی دوربین آزمایش کند. من فکر می کنم او به خوبی از پس هر دو برمی آید.

2. بازار روستا

آهنگ / اواسط سفر

(منبع تصویر: Runway/Midjourney/Future AI)

هشدار اواسط سفر: «یک بازار روستایی شلوغ و پر جنب و جوش با فروشندگانی که میوه‌ها، سبزیجات و گل‌های رنگارنگ می‌فروشند، جایی که مردم در هر سنی در زیر آسمان روشن و آفتابی با هم تعامل دارند.»

کنش کت واک: “دوربین در بازار پرجنب‌وجوش روستا حرکت می‌کند و تعاملات پر انرژی را هنگام چانه‌زنی و خندیدن مردم به تصویر می‌کشد. تمرکز بین فروشندگانی که کالاهای خود را به نمایش می‌گذارند و مشتریانی که در حال خرید هستند، تغییر می‌کند و بر فضای پر جنب و جوش بازار تاکید می‌کند.”

در اینجا می بینیم که آیا هوش مصنوعی می تواند صحنه های پویا و انسان محور را با حرکت و تعامل زیاد اداره کند یا خیر. همچنین باید ظاهر تصویر را در سراسر صحنه حفظ کند.

3. چشمگیر

آهنگ / اواسط سفر

(منبع تصویر: Runway/Midjourney/Future AI)

فیلم گرفته شده در طول سفر: “زنی جوان در حال ضبط یک وبلاگ در اتاقی دنج و پر نور پر از گیاهان، کتاب ها و دکورهای ملایم، با نور حلقه و دوربین جلوی او.”

اکشن Catwalk: “دوربین در حالی که اینفلوئنسر در اتاق دنج خود حرکت می کند، نور و دوربین را تنظیم می کند، دنبال می کند و سپس شروع به ضبط وبلاگ خود می کند. شات بر حالات چهره او و فضای گرم و دعوت کننده محل تمرکز دارد.”

با این اعلان، آزمایش می کنیم که آیا هوش مصنوعی می تواند بیان انسان را تقلید کند و حرکات دست Runway را پردازش کند. خوب بود اما کامل نبود، با کمی غیرواقعی.

4. سفر با قطار

آهنگ / اواسط سفر

(منبع تصویر: Runway/Midjourney/Future AI)

اعلان میان سفر: “یک قطار خوش منظره از میان زمین های کوهستانی در طول ساعت طلایی، جایی که مسافران منظره خیره کننده را از پنجره تماشا می کنند.”

اقدام در مسیر: “دوربین از داخل قطار شروع می‌شود و روی مسافرانی تمرکز می‌کند که با نور ساعت طلایی از پنجره به بیرون نگاه می‌کنند، سپس به نمای بیرونی تغییر می‌کند و مناظر زیبای کوهستانی را در حالی که قطار در طول ساعت طلایی از میان منظره سر می‌خورد، ثبت می‌کند.”

این آزمایش به Runway نیاز دارد که بین یک عکس به عکس بعدی، الهام گرفته از تصویر و تلاش برای حفظ همان حس، یک انتقال ایجاد کند. نزدیک بود اما فکر می کنم بهتر بود بدون تصویر اولیه یک متن به ویدیو تغییر مسیر می داد.

5. یک جشنواره موسیقی

آهنگ / اواسط سفر

(منبع تصویر: Runway/Midjourney/Future AI)

تصویر گرفته شده در طول سفر: “یک فستیوال موسیقی در فضای باز سرزنده در هنگام غروب، که در آن جمعیتی از مردم می رقصند، صحنه با نورهای رنگارنگ روشن شده است و یک گروه موسیقی با انرژی اجرا می کند.”

اکشن تریبون: “دوربین روی جمعیت پرانرژی در جشنواره موسیقی حرکت می کند و رقص و چراغ های صحنه پر جنب و جوش گروه را هنگام اجرا به تصویر می کشد. تمرکز از صحنه به جمعیت تغییر می کند و هیجان و انرژی جمعی رویداد را برجسته می کند.”

در نهایت، می‌خواهیم ببینیم که Runway چگونه صحنه‌های پیچیده و پرانرژی را با چندین نقطه اکشن کنترل می‌کند. رقصندگان کار بسیار خوبی انجام دادند، البته کمی مشابه.

افکار نهایی

توانایی تولید سریع ویدیو یک تغییر قابل توجه برای Runway است. همچنین به حالت بالقوه با وضوح بالاتر در آینده اشاره می کند که در آن می توانید نسل های ناموفق را ارتقا دهید.

ویدیوی هوش مصنوعی تنها در یک سال پیشرفت زیادی کرده است. به جایی رسیدیم که بتوانیم یک فیلم کوتاه از کلیپ های ده ثانیه ای بسازیم و تقریبا واقعی به نظر برسیم. هر نسل جدید رئالیسم تصویر و حرکت را بهبود می بخشد.

توربو کل این فرآیند را سریعتر می کند و امکان تکرار سریع را فراهم می کند. این نیز مفید است زیرا نسبت کلیپ های قابل استفاده به گیره های غیرقابل استفاده هنوز حدود 5:1 است.