من Luma Dream Machine را با 7 ویدیوی هوش مصنوعی آزمایش کردم – رتبه بندی آن توسط Sora به این صورت است:

پروین میرمیران13 ژوئن 2024آخرین به روز رسانی: 13 ژوئن 2024

0 2,655 خواندن این مطلب 8 دقیقه زمان میبرد

شرکت هوش مصنوعی Luma Labs که قبلا مدل سه بعدی مولد Genie را فاش کرده بود، با Dream Machine وارد دنیای ویدیوهای هوش مصنوعی شده است و بسیار چشمگیر است.

تقاضا برای آزمایش Dream Machine سرورهای Luma را چنان بارگذاری کرد که مجبور شدند یک سیستم صف اضافه کنند. من تمام شب را منتظر بودم تا درخواست‌هایم به ویدیو تبدیل شوند، اما وقتی به بالای صف رسیدید، فرآیند واقعی “رویاپردازی” حدود دو دقیقه طول می‌کشد.

برخی از ویدیوهای به اشتراک گذاشته شده در رسانه های اجتماعی از افرادی که دسترسی اولیه به آنها داده شده است، بیش از حد چشمگیر به نظر می رسد که واقعی باشد. تا حد امکان با مدل‌های ویدیویی هوش مصنوعی موجود انتخاب شد تا نشان دهد بهترین عملکردشان چیست – اما من آن را امتحان کردم و خیلی خوب است.

اگرچه در سطح سورا یا حتی به خوبی Kling نیست، اما یکی از بهترین مدل‌های ویدیویی هوش مصنوعی ردیابی سریع و درک عمل است که تا به حال دیده‌ام. به نوعی، او خیلی بهتر از سورا است. امروز هر کسی می تواند از آن استفاده کند.

هر تولید ویدیو تقریباً پنج ثانیه است. این تقریباً دو برابر طول مسیرهای باند یا Pika Labs است، و شواهدی وجود دارد که نشان می‌دهد برخی ویدیوها چندین عکس دارند.

استفاده از Dream Machine چگونه است؟

در حین تست چند کلیپ ساختم. یکی در حدود سه ساعت آماده شد، بقیه بیشتر شب را گرفت. برخی از آنها ترکیب یا تاری مشکوک دارند، اما برای اکثر دسته ها بهتر از هر مدلی که من امتحان کرده ام، حرکت را ثبت می کنند.

به آنها نشان دادم چگونه راه بروند، برقصند و حتی بدوند. در مدل‌های قدیمی‌تر، افراد ممکن است به دلیل دستوراتی که چنین حرکتی را درخواست می‌کنند، نیاز به حرکت به سمت عقب یا زوم متحرک روی یک رقصنده در حالت ایستاده داشته باشند. این ماشین رویایی نیست.

Dream Machine مفهوم یک جسم در حال حرکت را بدون نیاز به تعیین ناحیه حرکت کاملاً به تصویر کشید. به خصوص در دویدن مهارت داشت. اما شما دارای حداقل کنترل دقیق یا دقیقی فراتر از اعلان هستید.

این ممکن است به این دلیل باشد که حتی اگر یک مدل جدید است، همه چیز توسط خط فرمان مدیریت می شود. هوش مصنوعی این را به طور خودکار با استفاده از مدل زبان خود توسعه می دهد.

این نیز تکنیکی است که توسط Ideogram و Leonardo در ایجاد تصاویر استفاده می شود و به ارائه توضیحات توصیفی تر از آنچه می خواهید ببینید کمک می کند.

این ممکن است یکی از ویژگی‌های مدل‌های ویدیویی باشد که بر اساس فناوری توزیع ترانسفورماتور ساخته شده‌اند تا توزیع مسطح. استارت‌آپ ویدیویی هوش مصنوعی Haiper در بریتانیا می‌گوید که مدل آن زمانی بهترین کار را می‌کند که به فرمان اجازه انجام کار را بدهید، و Sora چیزی بیشتر از یک پیام متنی ساده با حداقل کنترل‌های اضافی است.

آزمایش ماشین رویایی

(اعتبار تصویر: Dream Machine)

من با مجموعه ای از دستورات آمدم تا Dream Machine را آزمایش کنم. من همچنین برخی از اینها را با مدل‌های ویدیویی هوش مصنوعی موجود امتحان کردم تا ببینم چگونه مقایسه می‌شوند، و هیچ‌کدام به سطح دقت حرکت یا فیزیک واقعی نرسیدند.

در برخی موارد، من یک پیام متنی ساده دادم که ویژگی بهبود را فعال کرد. برای دیگران، من خودم آن را با دستور طولانی تر شروع کردم و در چند مورد تصویری را که در Midjourney ایجاد کردم به آن دادم.

1. دویدن برای خوردن بستنی

ماشین رویای لوما

(اعتبار تصویر: Luma Dream Machine/Future AI)

برای این ویدیو، یک فرم طولانی تر و اعلان تشریحی ایجاد کردم. من می‌خواستم چیزی بسازم که به نظر می‌رسد با گوشی هوشمند گرفته شده است.

اعلان: “کودکی هیجان زده به سمت یک کامیون بستنی پارک شده در خیابانی آفتابی می دود. دوربین او را از نزدیک دنبال می کند، پشت سر و شانه های کودک را می گیرد، بازوهایش با هیجان تکان می دهند، و کامیون بستنی رنگارنگ نزدیک می شود. در ویدیو، او گوشی را طوری نگه می دارد که حرکت طبیعی دویدن را تقلید می کند.”

او دو ویدیو ساخت. اول به نظر می رسید که کامیون بستنی می خواهد کودک را له کند و حرکات دست کودک کمی عجیب بود.

ویدیو دوم خیلی بهتر بود کاملا غیر واقعی بود و تاری حرکتی چشمگیر داشت. ویدیوی بالا مربوط به تصویر دوم است زیرا ایده یک جهش جزئی در حرکت دوربین را نیز به تصویر می‌کشد.

2. وارد دایناسور شوید

ویدیوی Luma AI Dream Machine

(اعتبار تصویر: Luma AI/Future AI)

این بار یک فرمان ساده به Dream Machine دادم و به آن گفتم که دستور را توسعه ندهد، فقط آنچه را که داده شده است، بردارید. اساساً، او دو ویدیو ایجاد کرد که به‌گونه‌ای جریان داشتند که گویی اولین و دومین فیلم در یک صحنه هستند.

اعلان: “مردی یک دوربین جادویی را کشف می کند که هر عکسی را زنده می کند، اما وقتی به طور تصادفی از یک دایناسور عکس می گیرد، هرج و مرج رخ می دهد.”

در حالی که کمی چرخش وجود دارد، به خصوص در اطراف لبه ها، حرکت دایناسور که به اتاق برخورد می کند، درک جالبی از فیزیک دنیای واقعی ارائه می دهد.

3. تلفن در خیابان

ماشین رویای لوما

(اعتبار تصویر: Luma Dream Machine/Future AI)

در مرحله بعدی یک اعلان پیچیده دیگر است. این صحنه مخصوصاً باید حرکات سبک، لرزان و صحنه نسبتاً پیچیده Dream Machine را در نظر بگیرد.

پیام: “شخصی که در هنگام غروب در یک خیابان شلوغ شهر قدم می‌زند، تلفن هوشمند خود را به صورت عمودی نگه می‌دارد. دوربین در حین راه رفتن، دستان او را که کمی تکان می‌خورند، نشان می‌دهد، ویترین مغازه‌ها، مردم در حال عبور و درخشش چراغ‌های خیابان را نشان می‌دهد. در ویدئو، یک عکس وجود دارد. لرزش خفیف برای تقلید از حرکت طبیعی در دست گرفتن تلفن.” “من لرزش دست دارم.”

این می تواند به دو صورت اتفاق بیفتد. هوش مصنوعی می‌تواند تصویر دوربینی را که شخص در دست دارد، یا فردی را که در حال راه رفتن در حالی که دوربین را در دست دارد، ثبت کند (اول شخص در مقابل سوم شخص). او دیدگاه سوم شخص را ترجیح می داد.

به دلیل کمی خم شدن در اطراف لبه ها کامل نبود، اما با توجه به عناصر ناسازگاری در دستور من، بهتر از آن چیزی بود که انتظار داشتم.

4. رقصیدن در تاریکی

ماشین رویای لوما

(اعتبار تصویر: Luma Dream Machine/Future AI)

من با تصویری از یک رقصنده silhouetted شروع کردم که سپس در Midjourney ایجاد شد. من سعی کردم از این با Runway، Pika Labs و Stable Video Diffusion استفاده کنم، و در هر مورد حرکت را در عکس نشان می دهد اما حرکت شخصیت را نشان نمی دهد.

اعلان: “یک عکس ردیابی جذاب از زنی که در حال رقص با سیلوئت در مقابل یک پس زمینه متضاد و با نور خوب است، ایجاد کنید. دوربین باید حرکات سیال رقصنده را دنبال کند و در طول عکس روی سیلوئت او تمرکز کند.”

کامل نبود وقتی پا می‌چرخید و به نظر می‌رسید که دست‌ها با پارچه وصل شده‌اند، تاب خوردن عجیبی در پا ایجاد می‌شد، اما حداقل شخصیت حرکت می‌کرد. این یک ثابت در Luma Dream Machine است. در حرکت بسیار بهتر است.

5. گربه ها روی ماه

ماشین رویای لوما

(اعتبار تصویر: Luma Dream Machine/Future AI)

یکی از اولین پیام هایی که در هر نمایشگر مولد هوش مصنوعی یا حالت ویدیویی امتحان می کنم، «رقصیدن گربه ها روی ماه با لباس فضایی» است. استفاده از ویدیوهای موجود بسیار ناخوشایند و به اندازه کافی پیچیده است که ویدیو با حرکت دست و پنجه نرم می کند.

درخواست دقیق من از Luma Dream Machine: “گربه ای با لباس فضایی در حال رقصیدن با سگ روی ماه.” تمام است، هیچ توضیحی برای نوع حرکت وجود ندارد. این را به هوش مصنوعی واگذار کردم.

چیزی که این اعلان نشان می دهد این است که شما باید دستورالعمل هایی را در مورد نحوه تفسیر حرکت به هوش مصنوعی بدهید. کار بدی نداشت، بهتر از مدل‌های جایگزین موجود بود، اما از کامل بودن دور بود.

6. از بازار دیدن کنید

ماشین رویایی هوش مصنوعی لوما

(اعتبار تصویر: Luma AI Dream Machine/Future)

بعد عکس دیگری بود که با تصویر Mid-Journey شروع شد. تصویری از یک بازار شلوغ مواد غذایی اروپایی بود. درخواست اولیه Midjourney این بود: «یک عکس فوق‌العاده واقعی و صریح از گوشی هوشمند از یک بازار شلوغ کشاورزان در فضای باز در یک میدان شهر اروپایی عجیب و غریب».

من این دستورالعمل را برای ماشین رویایی Luma Labs اضافه کردم: «در بازار مواد غذایی شلوغ و شلوغ قدم بزنید». هیچ دستور حرکتی یا دستور کاراکتری دیگر وجود ندارد.

ای کاش در مورد نحوه عملکرد شخصیت ها دقیق تر می گفتم. حرکت دوربین را واقعاً خوب ثبت کرد اما باعث ایجاد اعوجاج و ادغام زیادی بین افراد در صحنه شد. این یکی از اولین تلاش‌های من بود و بنابراین تکنیک‌های بهتری را برای دستکاری مدل امتحان نکردم.

7. پایان مسابقه شطرنج

ماشین رویای لوما

(اعتبار تصویر: Luma Dream Machine)

در نهایت تصمیم گرفتم به Luma Dream Machine یک تلنگر کامل بدهم. من با لئوناردو فینیکس، مدل جدید هوش مصنوعی دیگری که نوید ردیابی سریع و چشمگیر را می دهد، آزمایش کرده ام. بنابراین من یک اعلان تصویر پیچیده هوش مصنوعی ایجاد کردم.

فونیکس کار خوبی انجام داد، اما فقط یک تصویر بود، بنابراین تصمیم گرفتم دقیقاً همان دستور را در Dream Machine بگذارم: “یک صفحه شطرنج سورئال و فرسوده شناور در فضای خالی مه آلود، مزین به چرخ دنده های برنجی و چرخ دنده ها، جایی که مهره های شطرنج استیمپانک پیچیده – با بخار از جمله پیاده روبات کار.

او همه چیز را به جز صفحه شطرنج نادیده گرفت و این ویدیوی سوررئالیستی را ساخت که مهره های شطرنج از انتهای صفحه به سمت پایین پرواز می کنند، انگار که در حال ذوب شدن هستند. نمی توانم بگویم که این عمدی است یا شکست در درک جنبش به دلیل عنصر سورئالیسم. هنوز هم عالی به نظر می رسد.

افکار نهایی

من فقط این محاسبه را انجام دادم: من در عصر شنبه به Luma Dream Machine دسترسی پیدا کردم و 2-3 روز با آن بازی کردم و 633 نسل را ایجاد کردم. من فکر می کنم حداقل 150 مورد از این 633 تست، تست های تصادفی برای اهداف سرگرمی بودند. بنابراین تخمین می زنم حدود 500 سال طول کشید… https://t.co/TpMCdDmlxy12 ژوئن 2024

Luma Labs Dream Machine قدم بعدی چشمگیر در ویدیوهای مولد هوش مصنوعی است. آنها احتمالاً از تجربه در مدل‌سازی سه بعدی مولد برای بهبود درک حرکت در ویدیو استفاده کردند. اما این هنوز مانند توقفی برای ویدیوی واقعی هوش مصنوعی به نظر می رسد.

طی دو سال گذشته، تولید تصویر هوش مصنوعی از یک نمایش عجیب و غریب و با وضوح پایین از افرادی با انگشتان و چهره‌های متعدد که بیشتر شبیه چیزی است که ادوارد مونک ممکن است کشیده باشد تا یک عکس، تقریباً غیرقابل تشخیص از واقعیت است.

ویدیوی هوش مصنوعی بسیار پیچیده تر است. این فقط در مورد تکرار واقع گرایی یک عکس نیست، بلکه در مورد درک فیزیک دنیای واقعی و چگونگی تأثیر آن بر حرکت در صحنه ها، افراد، حیوانات، وسایل نقلیه و اشیاء است.

در حال حاضر، من فکر می کنم حتی بهترین ابزارهای ویدئویی هوش مصنوعی باید در کنار فیلم سازی سنتی به جای جایگزینی آن استفاده شوند. اما ما به دورانی نزدیک می‌شویم که اشتون کوچر پیش‌بینی می‌کند دورانی است که هرکسی می‌تواند فیلم‌های بلند خود را بسازد.

Luma Labs یکی از واقعی ترین ابزارهای حرکتی را که تا به حال دیده ام ایجاد کرده است، اما هنوز از آنچه لازم است فاصله دارد. فکر نمی‌کنم در سطح سورا باشد، اما نمی‌توانم آن را با ویدیوهایی که خودم با استفاده از Sora ساخته‌ام مقایسه کنم – فقط آنهایی که از فیلم‌سازان و OpenAI دیده‌ام، و احتمالاً از صدها فیلم انتخاب شده‌اند. از شکست ها

Abel Art، هنرمند مشتاق هوش مصنوعی با دسترسی اولیه به Dream Machine، آثار چشمگیری خلق کرده است. اما او گفت که باید صدها نسل را فقط برای یک دقیقه ویدیو ایجاد کند تا ویدیو ثابت بماند و کلیپ های غیرقابل استفاده حذف شود.

این نسبت تقریباً 500 کلیپ برای یک ویدیوی 1 دقیقه‌ای است که هر کلیپ حدود 5 ثانیه طول می‌کشد و 98 درصد از فیلم را دور می‌اندازد تا صحنه‌ای عالی ایجاد شود.

من گمان می‌کنم که این نرخ برای Pika Labs و Runway بالاتر بوده است، و گزارش‌ها نشان می‌دهند که Sora نرخ پرتاب مشابهی داشته است، حداقل برای فیلم‌سازانی که از او استفاده کرده‌اند.

در حال حاضر، من فکر می کنم حتی بهترین ابزارهای ویدئویی هوش مصنوعی باید در کنار فیلم سازی سنتی به جای جایگزینی آن استفاده شوند. اما ما به دورانی نزدیک می‌شویم که اشتون کوچر پیش‌بینی می‌کند زمانی خواهد بود که هرکسی می‌تواند فیلم‌های بلند خود را بسازد.