من Luma Dream Machine را با 7 ویدیوی هوش مصنوعی آزمایش کردم – رتبه بندی آن توسط Sora به این صورت است:
شرکت هوش مصنوعی Luma Labs که قبلا مدل سه بعدی مولد Genie را فاش کرده بود، با Dream Machine وارد دنیای ویدیوهای هوش مصنوعی شده است و بسیار چشمگیر است.
تقاضا برای آزمایش Dream Machine سرورهای Luma را چنان بارگذاری کرد که مجبور شدند یک سیستم صف اضافه کنند. من تمام شب را منتظر بودم تا درخواستهایم به ویدیو تبدیل شوند، اما وقتی به بالای صف رسیدید، فرآیند واقعی “رویاپردازی” حدود دو دقیقه طول میکشد.
برخی از ویدیوهای به اشتراک گذاشته شده در رسانه های اجتماعی از افرادی که دسترسی اولیه به آنها داده شده است، بیش از حد چشمگیر به نظر می رسد که واقعی باشد. تا حد امکان با مدلهای ویدیویی هوش مصنوعی موجود انتخاب شد تا نشان دهد بهترین عملکردشان چیست – اما من آن را امتحان کردم و خیلی خوب است.
اگرچه در سطح سورا یا حتی به خوبی Kling نیست، اما یکی از بهترین مدلهای ویدیویی هوش مصنوعی ردیابی سریع و درک عمل است که تا به حال دیدهام. به نوعی، او خیلی بهتر از سورا است. امروز هر کسی می تواند از آن استفاده کند.
هر تولید ویدیو تقریباً پنج ثانیه است. این تقریباً دو برابر طول مسیرهای باند یا Pika Labs است، و شواهدی وجود دارد که نشان میدهد برخی ویدیوها چندین عکس دارند.
استفاده از Dream Machine چگونه است؟
در حین تست چند کلیپ ساختم. یکی در حدود سه ساعت آماده شد، بقیه بیشتر شب را گرفت. برخی از آنها ترکیب یا تاری مشکوک دارند، اما برای اکثر دسته ها بهتر از هر مدلی که من امتحان کرده ام، حرکت را ثبت می کنند.
به آنها نشان دادم چگونه راه بروند، برقصند و حتی بدوند. در مدلهای قدیمیتر، افراد ممکن است به دلیل دستوراتی که چنین حرکتی را درخواست میکنند، نیاز به حرکت به سمت عقب یا زوم متحرک روی یک رقصنده در حالت ایستاده داشته باشند. این ماشین رویایی نیست.
Dream Machine مفهوم یک جسم در حال حرکت را بدون نیاز به تعیین ناحیه حرکت کاملاً به تصویر کشید. به خصوص در دویدن مهارت داشت. اما شما دارای حداقل کنترل دقیق یا دقیقی فراتر از اعلان هستید.
این ممکن است به این دلیل باشد که حتی اگر یک مدل جدید است، همه چیز توسط خط فرمان مدیریت می شود. هوش مصنوعی این را به طور خودکار با استفاده از مدل زبان خود توسعه می دهد.
این نیز تکنیکی است که توسط Ideogram و Leonardo در ایجاد تصاویر استفاده می شود و به ارائه توضیحات توصیفی تر از آنچه می خواهید ببینید کمک می کند.
این ممکن است یکی از ویژگیهای مدلهای ویدیویی باشد که بر اساس فناوری توزیع ترانسفورماتور ساخته شدهاند تا توزیع مسطح. استارتآپ ویدیویی هوش مصنوعی Haiper در بریتانیا میگوید که مدل آن زمانی بهترین کار را میکند که به فرمان اجازه انجام کار را بدهید، و Sora چیزی بیشتر از یک پیام متنی ساده با حداقل کنترلهای اضافی است.
آزمایش ماشین رویایی
من با مجموعه ای از دستورات آمدم تا Dream Machine را آزمایش کنم. من همچنین برخی از اینها را با مدلهای ویدیویی هوش مصنوعی موجود امتحان کردم تا ببینم چگونه مقایسه میشوند، و هیچکدام به سطح دقت حرکت یا فیزیک واقعی نرسیدند.
در برخی موارد، من یک پیام متنی ساده دادم که ویژگی بهبود را فعال کرد. برای دیگران، من خودم آن را با دستور طولانی تر شروع کردم و در چند مورد تصویری را که در Midjourney ایجاد کردم به آن دادم.
1. دویدن برای خوردن بستنی
برای این ویدیو، یک فرم طولانی تر و اعلان تشریحی ایجاد کردم. من میخواستم چیزی بسازم که به نظر میرسد با گوشی هوشمند گرفته شده است.
اعلان: “کودکی هیجان زده به سمت یک کامیون بستنی پارک شده در خیابانی آفتابی می دود. دوربین او را از نزدیک دنبال می کند، پشت سر و شانه های کودک را می گیرد، بازوهایش با هیجان تکان می دهند، و کامیون بستنی رنگارنگ نزدیک می شود. در ویدیو، او گوشی را طوری نگه می دارد که حرکت طبیعی دویدن را تقلید می کند.”
او دو ویدیو ساخت. اول به نظر می رسید که کامیون بستنی می خواهد کودک را له کند و حرکات دست کودک کمی عجیب بود.
ویدیو دوم خیلی بهتر بود کاملا غیر واقعی بود و تاری حرکتی چشمگیر داشت. ویدیوی بالا مربوط به تصویر دوم است زیرا ایده یک جهش جزئی در حرکت دوربین را نیز به تصویر میکشد.
2. وارد دایناسور شوید
این بار یک فرمان ساده به Dream Machine دادم و به آن گفتم که دستور را توسعه ندهد، فقط آنچه را که داده شده است، بردارید. اساساً، او دو ویدیو ایجاد کرد که بهگونهای جریان داشتند که گویی اولین و دومین فیلم در یک صحنه هستند.
اعلان: “مردی یک دوربین جادویی را کشف می کند که هر عکسی را زنده می کند، اما وقتی به طور تصادفی از یک دایناسور عکس می گیرد، هرج و مرج رخ می دهد.”
در حالی که کمی چرخش وجود دارد، به خصوص در اطراف لبه ها، حرکت دایناسور که به اتاق برخورد می کند، درک جالبی از فیزیک دنیای واقعی ارائه می دهد.
3. تلفن در خیابان
در مرحله بعدی یک اعلان پیچیده دیگر است. این صحنه مخصوصاً باید حرکات سبک، لرزان و صحنه نسبتاً پیچیده Dream Machine را در نظر بگیرد.
پیام: “شخصی که در هنگام غروب در یک خیابان شلوغ شهر قدم میزند، تلفن هوشمند خود را به صورت عمودی نگه میدارد. دوربین در حین راه رفتن، دستان او را که کمی تکان میخورند، نشان میدهد، ویترین مغازهها، مردم در حال عبور و درخشش چراغهای خیابان را نشان میدهد. در ویدئو، یک عکس وجود دارد. لرزش خفیف برای تقلید از حرکت طبیعی در دست گرفتن تلفن.” “من لرزش دست دارم.”
این می تواند به دو صورت اتفاق بیفتد. هوش مصنوعی میتواند تصویر دوربینی را که شخص در دست دارد، یا فردی را که در حال راه رفتن در حالی که دوربین را در دست دارد، ثبت کند (اول شخص در مقابل سوم شخص). او دیدگاه سوم شخص را ترجیح می داد.
به دلیل کمی خم شدن در اطراف لبه ها کامل نبود، اما با توجه به عناصر ناسازگاری در دستور من، بهتر از آن چیزی بود که انتظار داشتم.
4. رقصیدن در تاریکی
من با تصویری از یک رقصنده silhouetted شروع کردم که سپس در Midjourney ایجاد شد. من سعی کردم از این با Runway، Pika Labs و Stable Video Diffusion استفاده کنم، و در هر مورد حرکت را در عکس نشان می دهد اما حرکت شخصیت را نشان نمی دهد.
اعلان: “یک عکس ردیابی جذاب از زنی که در حال رقص با سیلوئت در مقابل یک پس زمینه متضاد و با نور خوب است، ایجاد کنید. دوربین باید حرکات سیال رقصنده را دنبال کند و در طول عکس روی سیلوئت او تمرکز کند.”
کامل نبود وقتی پا میچرخید و به نظر میرسید که دستها با پارچه وصل شدهاند، تاب خوردن عجیبی در پا ایجاد میشد، اما حداقل شخصیت حرکت میکرد. این یک ثابت در Luma Dream Machine است. در حرکت بسیار بهتر است.
5. گربه ها روی ماه
یکی از اولین پیام هایی که در هر نمایشگر مولد هوش مصنوعی یا حالت ویدیویی امتحان می کنم، «رقصیدن گربه ها روی ماه با لباس فضایی» است. استفاده از ویدیوهای موجود بسیار ناخوشایند و به اندازه کافی پیچیده است که ویدیو با حرکت دست و پنجه نرم می کند.
درخواست دقیق من از Luma Dream Machine: “گربه ای با لباس فضایی در حال رقصیدن با سگ روی ماه.” تمام است، هیچ توضیحی برای نوع حرکت وجود ندارد. این را به هوش مصنوعی واگذار کردم.
چیزی که این اعلان نشان می دهد این است که شما باید دستورالعمل هایی را در مورد نحوه تفسیر حرکت به هوش مصنوعی بدهید. کار بدی نداشت، بهتر از مدلهای جایگزین موجود بود، اما از کامل بودن دور بود.
6. از بازار دیدن کنید
بعد عکس دیگری بود که با تصویر Mid-Journey شروع شد. تصویری از یک بازار شلوغ مواد غذایی اروپایی بود. درخواست اولیه Midjourney این بود: «یک عکس فوقالعاده واقعی و صریح از گوشی هوشمند از یک بازار شلوغ کشاورزان در فضای باز در یک میدان شهر اروپایی عجیب و غریب».
من این دستورالعمل را برای ماشین رویایی Luma Labs اضافه کردم: «در بازار مواد غذایی شلوغ و شلوغ قدم بزنید». هیچ دستور حرکتی یا دستور کاراکتری دیگر وجود ندارد.
ای کاش در مورد نحوه عملکرد شخصیت ها دقیق تر می گفتم. حرکت دوربین را واقعاً خوب ثبت کرد اما باعث ایجاد اعوجاج و ادغام زیادی بین افراد در صحنه شد. این یکی از اولین تلاشهای من بود و بنابراین تکنیکهای بهتری را برای دستکاری مدل امتحان نکردم.
7. پایان مسابقه شطرنج
در نهایت تصمیم گرفتم به Luma Dream Machine یک تلنگر کامل بدهم. من با لئوناردو فینیکس، مدل جدید هوش مصنوعی دیگری که نوید ردیابی سریع و چشمگیر را می دهد، آزمایش کرده ام. بنابراین من یک اعلان تصویر پیچیده هوش مصنوعی ایجاد کردم.
فونیکس کار خوبی انجام داد، اما فقط یک تصویر بود، بنابراین تصمیم گرفتم دقیقاً همان دستور را در Dream Machine بگذارم: “یک صفحه شطرنج سورئال و فرسوده شناور در فضای خالی مه آلود، مزین به چرخ دنده های برنجی و چرخ دنده ها، جایی که مهره های شطرنج استیمپانک پیچیده – با بخار از جمله پیاده روبات کار.
او همه چیز را به جز صفحه شطرنج نادیده گرفت و این ویدیوی سوررئالیستی را ساخت که مهره های شطرنج از انتهای صفحه به سمت پایین پرواز می کنند، انگار که در حال ذوب شدن هستند. نمی توانم بگویم که این عمدی است یا شکست در درک جنبش به دلیل عنصر سورئالیسم. هنوز هم عالی به نظر می رسد.
افکار نهایی
من فقط این محاسبه را انجام دادم: من در عصر شنبه به Luma Dream Machine دسترسی پیدا کردم و 2-3 روز با آن بازی کردم و 633 نسل را ایجاد کردم. من فکر می کنم حداقل 150 مورد از این 633 تست، تست های تصادفی برای اهداف سرگرمی بودند. بنابراین تخمین می زنم حدود 500 سال طول کشید… https://t.co/TpMCdDmlxy12 ژوئن 2024
Luma Labs Dream Machine قدم بعدی چشمگیر در ویدیوهای مولد هوش مصنوعی است. آنها احتمالاً از تجربه در مدلسازی سه بعدی مولد برای بهبود درک حرکت در ویدیو استفاده کردند. اما این هنوز مانند توقفی برای ویدیوی واقعی هوش مصنوعی به نظر می رسد.
طی دو سال گذشته، تولید تصویر هوش مصنوعی از یک نمایش عجیب و غریب و با وضوح پایین از افرادی با انگشتان و چهرههای متعدد که بیشتر شبیه چیزی است که ادوارد مونک ممکن است کشیده باشد تا یک عکس، تقریباً غیرقابل تشخیص از واقعیت است.
ویدیوی هوش مصنوعی بسیار پیچیده تر است. این فقط در مورد تکرار واقع گرایی یک عکس نیست، بلکه در مورد درک فیزیک دنیای واقعی و چگونگی تأثیر آن بر حرکت در صحنه ها، افراد، حیوانات، وسایل نقلیه و اشیاء است.
Luma Labs یکی از واقعی ترین ابزارهای حرکتی را که تا به حال دیده ام ایجاد کرده است، اما هنوز از آنچه لازم است فاصله دارد. فکر نمیکنم در سطح سورا باشد، اما نمیتوانم آن را با ویدیوهایی که خودم با استفاده از Sora ساختهام مقایسه کنم – فقط آنهایی که از فیلمسازان و OpenAI دیدهام، و احتمالاً از صدها فیلم انتخاب شدهاند. از شکست ها
Abel Art، هنرمند مشتاق هوش مصنوعی با دسترسی اولیه به Dream Machine، آثار چشمگیری خلق کرده است. اما او گفت که باید صدها نسل را فقط برای یک دقیقه ویدیو ایجاد کند تا ویدیو ثابت بماند و کلیپ های غیرقابل استفاده حذف شود.
این نسبت تقریباً 500 کلیپ برای یک ویدیوی 1 دقیقهای است که هر کلیپ حدود 5 ثانیه طول میکشد و 98 درصد از فیلم را دور میاندازد تا صحنهای عالی ایجاد شود.
من گمان میکنم که این نرخ برای Pika Labs و Runway بالاتر بوده است، و گزارشها نشان میدهند که Sora نرخ پرتاب مشابهی داشته است، حداقل برای فیلمسازانی که از او استفاده کردهاند.
در حال حاضر، من فکر می کنم حتی بهترین ابزارهای ویدئویی هوش مصنوعی باید در کنار فیلم سازی سنتی به جای جایگزینی آن استفاده شوند. اما ما به دورانی نزدیک میشویم که اشتون کوچر پیشبینی میکند زمانی خواهد بود که هرکسی میتواند فیلمهای بلند خود را بسازد.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide