نبرد همگام سازی لب – من 3 ابزار ویدئویی پیشرو هوش مصنوعی را آزمایش کردم
یکی از سریعترین زمینههای در حال رشد ویدیوهای هوش مصنوعی، همگامسازی لبها است، که توانایی وادار کردن یک شخصیت هوش مصنوعی به صحبت کردن و به نظر رسیدن کلماتی است که میگویند.
شرکت های متعددی وجود دارند که همگام سازی لب را ارائه می دهند، از جمله Pika Labs، Synchlabs، و پلتفرم های مبتنی بر شخصیت مانند Hey Gen و Synthesia. دو مورد آخر به طور بالقوه بهترین نمونه های همگام سازی لب هستند که من دیده ام، اما آنها بیشتر بر روی آواتار متمرکز شده اند تا انیمیشن.
برای این داستان، به جای ایجاد آواتار، روی پلتفرم هایی که در فضای ویدیویی هوش مصنوعی کار می کنند، تمرکز کردم. Kling و Runway شبیهترین پلتفرمها هستند و پلتفرمهای ایجاد ویدیوی کامل را با همگامسازی لب به عنوان یک ویژگی ارائه میکنند. هدرا در حال حاضر روی این شخصیت متمرکز است، اما در حال ایجاد یک مدل ویدیویی بزرگتر و قابل هدایت است که با شخصیت شروع می شود. من این سه مورد را برای این آزمون انتخاب کردم.
طراحی جنگ
این یک مسابقه پنج دور بین سه مدل خواهد بود. سه دور از تصویری که من به آنها میدهم استفاده میکنند و دو دور از قابلیتهای ایجاد تصویر/فیلم خاص خود استفاده میکنند. (در پایان چند دور دویدم را فاش خواهم کرد.)
ما از یک فیلم مشابه با هر وسیله نقلیه استفاده خواهیم کرد، اما از صداهای داخلی آنها و همان متن مونولوگ استفاده خواهیم کرد. اگرچه هدرا می تواند تا یک دقیقه پیش برود، من روی تکه های 10 ثانیه ای تمرکز کردم. هدف از این کار حفظ ثبات در هر سه مدل است.
Hedra کمی متفاوت از Kling و Runway عمل می کند. دو مورد آخر یک ویدیو در یک ویدیو هستند و نقشه با حرکت لب شروع می شود. هدرا با یک تصویر آغاز می شود. نتایج نهایی مشابه است.
دور 1: تست صورت استاتیک
این باید ساده ترین باشد. ما این نکته را به Midjourney دادیم: «پرتره ای خنثی و کلوزآپ از یک فرد با حداقل بیان، که نمای رو به جلو از صورت را در یک محیط استودیویی با نور خوب و طبیعی نشان می دهد. پس زمینه از یک گرادیان رنگی ملایم و تار تشکیل شده است که حواس را پرت نمی کند. رنگ پوست باید طبیعی باشد و شخصیت باید آرام و بدون هیچ احساس آشکاری به نظر برسد.
سپس یک صدای سفارشی از هر یک از این سه مدل انتخاب کردیم و تصمیم گرفتیم که بگوییم: «سلام، به آینده تولید ویدیوی هوش مصنوعی خوش آمدید». “من در واقع وجود ندارم، اما به لطف شگفتی های همگام سازی لب، هنوز هم می توانم با شما صحبت کنم.”
این آزمایش اولیه قرار بود با وجود پیچیدگی بیشتر همگام سازی لب، 20 دقیقه طول بکشد، اما همانطور که Kling از نظر بصری و واقع گرایی حرکتی خوب است، تا حد زیادی کندترین مدل ویدیویی هوش مصنوعی است. به لطف Turbo، آهنگ تقریباً در زمان واقعی است و هدرا یک تصویر را متحرک می کند، بنابراین سریع است.
این یک دور نزدیک بین هدرا با صدا و حرکات دهان واقعی تر و کلینگ با حرکات گویاتر بود. من با ارتعاش قانع نیستم، بنابراین من آن را به هدرا می دهم به این مناسبت
دور 2: چالش بیان
در این تست، تصویری از نمای نزدیک داریم که در Midjourney ساخته شده است: «پرتره نزدیک از فردی با چهره ای رسا و شاد که دندان های خود را با لبخندی گسترده نشان می دهد. نورپردازی روشن و گرم است و روحیه ای شاد و پرانرژی ایجاد می کند. پس زمینه یک رنگ پاستلی ملایم و روشن است که از حالت چهره منحرف نمی شود.
از هر یک از این سه مدل خواسته شد که جمله زیر را بگویند: «زندگی گاهی اوقات می تواند عجیب باشد، اما این یک چیز عجیب و غریب خوب است، یک روش شاد برای بودن. چیزی برای لبخند زدن.» این توانایی در گرفتن زمینه احساسی را آزمایش می کند.
هر سه رندرهای کابوس وار بودند. واضح است که اگر می خواهید همگام سازی لب خوب باشد، باید با دهان بسته شروع کنید. من نمی توانم برنده را تاج گذاری کنم، اما با اکراه این کار را خواهم کرد هدرا بده برای حداقل حرکت دهان ترسناک
دور 3: صحنه اکشن
در نهایت، خواهیم دید که هر شرکت کننده چقدر می تواند لب های یک نفر را در میانه مکالمه و نه مستقیماً رو به دوربین به تصویر بکشد. ما از دستور Mid-Journey استفاده میکنیم: «شات اکشن متوسط از شخصی که کمی به پهلو چرخیده است، در حالی که در یک مکالمه شدید با دست بلند شده به گونهای که ژست میدهد صحبت میکند. چهره عزم و تمرکز را نشان می دهد. پس زمینه یک منظره شهری پویا و کمی تار با حرکاتی است که نشان می دهد فرد در حال حرکت در حال صحبت است.
فیلمنامه را به این شخصیت دادم: «بنابراین به او گفتم که اگر میخواهد ماشین را بخرد، باید با قیمت بهتری برگردد. “دیگر از او خبری نشد.”
هیچکدام کامل نبودند، اما من فکر می کنم هدرا و ران وی بهتر از کلینگ کار کردند. به طور کلی فکر می کنم مسیر این تور را طی کرد برای واقعی ترین همگام سازی لب.
برنده: هدرا
من در ابتدا پنج تور برنامه ریزی کرده بودم، اما ساخت هر ویدیو به قدری طول کشید که تکمیل آن در زمان کافی غیرممکن بود. دو آزمایش آخر قرار بود در مورد قابلیت های متن به ویدیو بدون تصویر شروع باشد، اما نتایج آنقدر ناقص بود که معتبر نبود.
شخصیت Hedra’s-2 تا حدی اجتناب ناپذیر به اوج رسید. با یک تصویر و انیمیشن شروع می شود. دو مورد دیگر نیاز به ترسیم حرکت دهان در یک ویدیو و همگام سازی لب ها با صدا دارند. در بین مدل های ویدیویی، به نظر من کلینگ در کل بهتر است، اما این اولین مدلی بود که تست نهایی را گذراند، بنابراین از نظر فنی Runway دوم شد.
اگر بخواهم این آزمایش را تکرار کنم، از صداهای خارجی استفاده می کنم. سازگاری بیشتری ایجاد کنید، همیشه از تصاویر تولید شده استفاده کنید و طیف وسیع تری از تست ها را اجرا کنید. کاش کلینگ سریعتر بود.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide