هوش مصنوعی جدید نتفلیکس ویدیو نمی سازد. واقعیت را بازنویسی می کند (و منبع باز)

من زمان زیادی را صرف آزمایش هر ابزار ویدیویی هوش مصنوعی کردهام که به بازار آمده است، از OpenAI’s Sora گرفته تا آخرین بهروزرسانیهای Runway. معمولاً سطح فروش یکسان است: “یک درخواست بنویسید، یک فیلم بگیرید.”
اما نتفلیکس بی سر و صدا یک مدل تحقیقاتی به نام VOID منتشر کرده است که کار کاملا متفاوتی را انجام می دهد. به جای ایجاد دنیاها و صحنههای جدید از ابتدا، دنیایی را که قبلاً گرفتهاید بازنویسی میکند و آنقدر در آن خوب است که ممکن است دیگر هرگز به یک ویدیوی «واقعی» اعتماد نکنید.
Netflix VOID چیست؟
VOID مخفف Video Object and Interaction Deletion است. در نگاه اول، به نظر میرسد نسخه پیشرفته «پاک کن جادویی» در پیکسل 8 یا گلکسی اس 24 شما باشد. شما یک شی را انتخاب می کنید و ناپدید می شود.
ادامه مقاله در زیر
اما اینجاست که دیوانه می شود: VOID فیزیک و علیت را می فهمد. به عبارت دیگر، در حالی که اکثر ابزارهای ویرایش، سوراخ باقی مانده را با بافتهای پسزمینه «وصله» میکنند، VOID در واقع منطق صحنه را بازنویسی میکند تا شی از دست رفته را توضیح دهد.
آزمایشهای مختلف در GitHub نشان میدهد که هوش مصنوعی چه کاری میتواند انجام دهد:
- تست گیتار: فردی که گیتار در دست دارد در نسخه آزمایشی تحقیقاتی حذف می شود. در هر ساز دیگری گیتار شناور یا ناپدید می شود. VOID تشخیص می دهد که گیتار دیگر پشتیبانی نمی شود و بنابراین به طور طبیعی فریم هایی را در جایی که روی زمین می افتد ایجاد می کند.
- تست تصادف: هنگامی که یک ماشین را از یک برخورد رو به رو بیرون می آورید، هیچ فضای خالی، آتش ارواح و اثر دود باقی نمی گذارد. او مسیر ماشین باقی مانده را به گونه ای “تصور مجدد” می کند که گویی تصادف هرگز اتفاق نیفتاده است. یک خرابه را به یک رانندگی آرام در یک جاده خالی تبدیل می کند.
چرا این “پایان فیلمبرداری مجدد” است؟
تماشا کنید
برای شرکتی مانند نتفلیکس، این یک ترفند بزرگ صرفه جویی در هزینه در صنعت فیلم را برجسته می کند. به لحظه معروف جام استارباکس «بازی تاج و تخت» فکر کنید. معمولاً رفع این مشکل نیاز به جراحی دیجیتال گران قیمت فریم به فریم دارد.
با VOID، یک تولید کننده می تواند به راحتی شی ناخواسته را حذف کند و به هوش مصنوعی اجازه دهد تا به طور واقع بینانه آنچه را که در آینده اتفاق می افتد شبیه سازی کند. چه پاشیدن آب، چه نشستن گرد و غبار، یا اصلاً هیچ چیز.
فراتر از اصلاحات جزئی است. به جای بازگرداندن یک خدمه 100 نفره برای عکسبرداری مجدد، هوش مصنوعی می تواند اشتباهات را پس از اتمام عکسبرداری تصحیح کند. حتی می تواند با حذف یک شی مهم و محاسبه مجدد صحنه، جزئیات داستان را تغییر دهد تا همه چیز طبیعی به نظر برسد.
می توانید امتحان کنید؟

شگفت آورترین بخش این نسخه این است که نتفلیکس منبع باز است. در حال حاضر می توانید این مدل را در Hugging Face (تحت مجوز آپاچی 2.0) پیدا کنید.
اما انتظار نداشته باشید که این را در مک بوک ایر خود اجرا کنید. VOID یک جانور است. برای اجرای راحت استنتاج ها به یک GPU با حداقل 40 گیگابایت VRAM (به NVIDIA A100 یا H100 فکر کنید) نیاز دارد. همچنین بر روی نسخه 5 میلیارد پارامتری CogVideoX ساخته شده است و از یک سیستم اختصاصی “ماسک چهارگانه” استفاده می کند تا به هوش مصنوعی بگوید کدام بخش های فیزیک نیاز به محاسبه مجدد دارند.
غذای آماده
«دریافت بصری» گواه نهایی این امر بود. الان داره قدرتش رو از دست میده نتفلیکس ابزاری را معرفی کرده است که می تواند فیلم واقعی را به قدری یکپارچه بازنویسی کند که کاملا واقعی به نظر برسد.
در عین حال، هوش مصنوعی “شیب” هر لحظه قانع کننده تر می شود. اینترنت را پر از محتوایی می کند که به نظر می رسد اصلی است اما اینطور نیست. نتیجه شبیه دنیایی به نظر می رسد که دیدن چیزی دیگر به این معنی نیست که می توانید به آن اعتماد کنید. ما رسما وارد دوران واقعیت قابل ویرایش شده ایم.

دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.



