نبرد همگام سازی لب – من 3 ابزار ویدئویی پیشرو هوش مصنوعی را آزمایش کردم

پروین میرمیراناکتبر 14, 2024آخرین به روز رسانی: اکتبر 14, 2024

0 2,712 خواندن این مطلب 4 دقیقه زمان میبرد

نبرد همگام سازی لب – من 3 ابزار ویدئویی پیشرو هوش مصنوعی را آزمایش کردم

یکی از سریع‌ترین زمینه‌های در حال رشد ویدیوهای هوش مصنوعی، همگام‌سازی لب‌ها است، که توانایی وادار کردن یک شخصیت هوش مصنوعی به صحبت کردن و به نظر رسیدن کلماتی است که می‌گویند.

شرکت های متعددی وجود دارند که همگام سازی لب را ارائه می دهند، از جمله Pika Labs، Synchlabs، و پلتفرم های مبتنی بر شخصیت مانند Hey Gen و Synthesia. دو مورد آخر به طور بالقوه بهترین نمونه های همگام سازی لب هستند که من دیده ام، اما آنها بیشتر بر روی آواتار متمرکز شده اند تا انیمیشن.

برای این داستان، به جای ایجاد آواتار، روی پلتفرم هایی که در فضای ویدیویی هوش مصنوعی کار می کنند، تمرکز کردم. Kling و Runway شبیه‌ترین پلتفرم‌ها هستند و پلتفرم‌های ایجاد ویدیوی کامل را با همگام‌سازی لب به عنوان یک ویژگی ارائه می‌کنند. هدرا در حال حاضر روی این شخصیت متمرکز است، اما در حال ایجاد یک مدل ویدیویی بزرگتر و قابل هدایت است که با شخصیت شروع می شود. من این سه مورد را برای این آزمون انتخاب کردم.

طراحی جنگ

این یک مسابقه پنج دور بین سه مدل خواهد بود. سه دور از تصویری که من به آنها می‌دهم استفاده می‌کنند و دو دور از قابلیت‌های ایجاد تصویر/فیلم خاص خود استفاده می‌کنند. (در پایان چند دور دویدم را فاش خواهم کرد.)

ما از یک فیلم مشابه با هر وسیله نقلیه استفاده خواهیم کرد، اما از صداهای داخلی آن‌ها و همان متن مونولوگ استفاده خواهیم کرد. اگرچه هدرا می تواند تا یک دقیقه پیش برود، من روی تکه های 10 ثانیه ای تمرکز کردم. هدف از این کار حفظ ثبات در هر سه مدل است.

Hedra کمی متفاوت از Kling و Runway عمل می کند. دو مورد آخر یک ویدیو در یک ویدیو هستند و نقشه با حرکت لب شروع می شود. هدرا با یک تصویر آغاز می شود. نتایج نهایی مشابه است.

دور 1: تست صورت استاتیک

(تصویر: © Midjourney/Future AI)

این باید ساده ترین باشد. ما این نکته را به Midjourney دادیم: «پرتره ای خنثی و کلوزآپ از یک فرد با حداقل بیان، که نمای رو به جلو از صورت را در یک محیط استودیویی با نور خوب و طبیعی نشان می دهد. پس زمینه از یک گرادیان رنگی ملایم و تار تشکیل شده است که حواس را پرت نمی کند. رنگ پوست باید طبیعی باشد و شخصیت باید آرام و بدون هیچ احساس آشکاری به نظر برسد.

سپس یک صدای سفارشی از هر یک از این سه مدل انتخاب کردیم و تصمیم گرفتیم که بگوییم: «سلام، به آینده تولید ویدیوی هوش مصنوعی خوش آمدید». “من در واقع وجود ندارم، اما به لطف شگفتی های همگام سازی لب، هنوز هم می توانم با شما صحبت کنم.”

این آزمایش اولیه قرار بود با وجود پیچیدگی بیشتر همگام سازی لب، 20 دقیقه طول بکشد، اما همانطور که Kling از نظر بصری و واقع گرایی حرکتی خوب است، تا حد زیادی کندترین مدل ویدیویی هوش مصنوعی است. به لطف Turbo، آهنگ تقریباً در زمان واقعی است و هدرا یک تصویر را متحرک می کند، بنابراین سریع است.

این یک دور نزدیک بین هدرا با صدا و حرکات دهان واقعی تر و کلینگ با حرکات گویاتر بود. من با ارتعاش قانع نیستم، بنابراین من آن را به هدرا می دهم به این مناسبت

دور 2: چالش بیان

اواسط سفر

(تصویر: © Midjourney/Future AI)

در این تست، تصویری از نمای نزدیک داریم که در Midjourney ساخته شده است: «پرتره نزدیک از فردی با چهره ای رسا و شاد که دندان های خود را با لبخندی گسترده نشان می دهد. نورپردازی روشن و گرم است و روحیه ای شاد و پرانرژی ایجاد می کند. پس زمینه یک رنگ پاستلی ملایم و روشن است که از حالت چهره منحرف نمی شود.

از هر یک از این سه مدل خواسته شد که جمله زیر را بگویند: «زندگی گاهی اوقات می تواند عجیب باشد، اما این یک چیز عجیب و غریب خوب است، یک روش شاد برای بودن. چیزی برای لبخند زدن.» این توانایی در گرفتن زمینه احساسی را آزمایش می کند.

هر سه رندرهای کابوس وار بودند. واضح است که اگر می خواهید همگام سازی لب خوب باشد، باید با دهان بسته شروع کنید. من نمی توانم برنده را تاج گذاری کنم، اما با اکراه این کار را خواهم کرد هدرا بده برای حداقل حرکت دهان ترسناک

دور 3: صحنه اکشن

اواسط سفر

در نهایت، خواهیم دید که هر شرکت کننده چقدر می تواند لب های یک نفر را در میانه مکالمه و نه مستقیماً رو به دوربین به تصویر بکشد. ما از دستور Mid-Journey استفاده می‌کنیم: «شات اکشن متوسط از شخصی که کمی به پهلو چرخیده است، در حالی که در یک مکالمه شدید با دست بلند شده به گونه‌ای که ژست می‌دهد صحبت می‌کند. چهره عزم و تمرکز را نشان می دهد. پس زمینه یک منظره شهری پویا و کمی تار با حرکاتی است که نشان می دهد فرد در حال حرکت در حال صحبت است.

فیلمنامه را به این شخصیت دادم: «بنابراین به او گفتم که اگر می‌خواهد ماشین را بخرد، باید با قیمت بهتری برگردد. “دیگر از او خبری نشد.”

هیچکدام کامل نبودند، اما من فکر می کنم هدرا و ران وی بهتر از کلینگ کار کردند. به طور کلی فکر می کنم مسیر این تور را طی کرد برای واقعی ترین همگام سازی لب.

برنده: هدرا

من در ابتدا پنج تور برنامه ریزی کرده بودم، اما ساخت هر ویدیو به قدری طول کشید که تکمیل آن در زمان کافی غیرممکن بود. دو آزمایش آخر قرار بود در مورد قابلیت های متن به ویدیو بدون تصویر شروع باشد، اما نتایج آنقدر ناقص بود که معتبر نبود.

شخصیت Hedra’s-2 تا حدی اجتناب ناپذیر به اوج رسید. با یک تصویر و انیمیشن شروع می شود. دو مورد دیگر نیاز به ترسیم حرکت دهان در یک ویدیو و همگام سازی لب ها با صدا دارند. در بین مدل های ویدیویی، به نظر من کلینگ در کل بهتر است، اما این اولین مدلی بود که تست نهایی را گذراند، بنابراین از نظر فنی Runway دوم شد.

اگر بخواهم این آزمایش را تکرار کنم، از صداهای خارجی استفاده می کنم. سازگاری بیشتری ایجاد کنید، همیشه از تصاویر تولید شده استفاده کنید و طیف وسیع تری از تست ها را اجرا کنید. کاش کلینگ سریعتر بود.

اطلاعات بیشتر از راهنمای تام

منبع: tomsguide

پروین میرمیراناکتبر 14, 2024آخرین به روز رسانی: اکتبر 14, 2024

0 2,712 خواندن این مطلب 4 دقیقه زمان میبرد

نبرد همگام سازی لب – من 3 ابزار ویدئویی پیشرو هوش مصنوعی را آزمایش کردم

پروین میرمیران

دیدگاهتان را بنویسید لغو پاسخ

مدیر عامل شرکت Quantum Giant به بیت کوین هشدار داد – U.Today

مرسدس کوچکترین شاسی بلند خود را برای عصر EV اختراع کرد

نویسنده پیش‌بینی تاریخی 700% XRP به حقیقت می‌پیوندد چشم‌انداز جدید قیمت بیت‌کوین را کاهش می‌دهد – U.Today

این مرسدس 190 Evo II Restomod زیبا 765 اسب بخار قدرت دارد

هیجان انگیز کوسه جدید Prime Video یک مشکل بزرگ در کمین کردن در زیر سطح دارد و این کوسه نیست

جدیدترین شاسی بلند لوکس چین برای شکست آلمانی ها ساخته شده است

آخر این هفته چی ببینم؟ از کارشناسان انتشارات Tom’s Guide بپرسید و ما توصیه هایی خواهیم کرد

شیبا اینو (SHIB) به زیر آستانه 400 میلیون دلار در ذخایر ارزی سقوط خواهد کرد – U.Today

«ما اینجا هستیم تا ارائه کنیم:» چگونه یک شرکت هایپرکار فراموش شده قصد دارد بازگشت بزرگی داشته باشد

مدیر عامل استراتژی، معیارهای کلیدی مالی را به‌روزرسانی می‌کند زیرا سهام سریع‌تر از بیت‌کوین سقوط می‌کند – U.Today