Sora 2 در مقابل Veo 3.1: من هر دو سازنده ویدیوی هوش مصنوعی را با 7 فرمان صوتی آزمایش کردم – این برنده است

همه به این فکر میکنند که کدام سازنده ویدیوی هوش مصنوعی زیباترین پیکسلها را تولید میکند، اما آنها کاملاً از این موضوع غافل هستند. میدان نبرد واقعی بین Sora 2 از OpenAI و Veo 3.1 گوگل، وفاداری بصری نیست، بلکه پیچیدگی شنیداری و واقع گرایی فضایی است.
هر دو مدل ویژگی های خاص خود را دارند. ویژگی Cameo در Sora 2 به شما امکان می دهد خود را به زیبایی وارد صحنه کنید. Veo 3.1 سازگاری بین صحنه ها را بهبود می بخشد. اما دارایی واقعی آنها صدا است و هر دو به طرز شگفت انگیزی در آن خوب هستند. بر خلاف مدل های دیگر که صدا یک افزونه است، Sora و Veo نیز به داده های آموزشی اضافه می شوند.
آزمایش آنچه مهم است
طراحی صدای خوب نامرئی است. شما فقط زمانی متوجه می شوید که اشتباه باشد. یک کافه احساس واقعی می کند زیرا صدای خش خش دستگاه اسپرسوساز، در که صدای کوتاهی از خیابان به گوش می رسد و دیالوگ هایی که به طور طبیعی در فضا نشسته است را می شنوید. هر عنصری را اشتباه نفهمید و توهم فرو ریخت.
بخشی از کارم را در رادیو گذراندم، سپس محیط های صوتی را برای اولین ویدیوهای هوش مصنوعی ایجاد کردم. چندین لایه از یک صدا اغلب برای احساس درست مورد نیاز بود.
من هفت سناریو طراحی کردم که قابلیتهای صوتی مختلف را با اجرای همان فرمانها در هر دو سیستم آزمایش میکردند. من برای دقت فضایی، انسجام محیطی، دقت همگامسازی، و جزئیات ظریفی که صحنهها را زنده میکنند، گوش دادم – تنفس قبل از آواز خواندن، خشخش پارچه، نحوه فشرده شدن صدای جمعیت هنگام ورود یک سیستم PA.
برای این آزمایشها، من کمتر بر روی آنچه که از نظر بصری اتفاق میافتد تمرکز کردم، برخی از اشکالات آشکار یا بدبختیهای خندهدار در کلیپها را نادیده گرفتم.
تست 1: مکالمه روی میز کافه
سختی: دو نفر با هم صحبت می کنند، باریستا کار می کند، در وسط صحنه با آژیر داپلر باز می شود. موسیقی پس زمینه وجود ندارد.
سورا 2 صحنه ای زیبا و خوش خلق با دیالوگ های برجسته و زمزمه محیطی عالی خلق کرد. با این حال، او به طور کامل آزمایش در/آژیر را نادیده گرفت و علی رغم دستورالعمل ها، موسیقی سبک جوی را اضافه کرد.
Veo 3.1 دقیقاً همان کاری را که خواسته شد انجام داد: باریستای قابل مشاهده، دستگاه اسپرسوساز قابل شنیدن، باز شدن در در ساعت 0:02. صدا کاملاً دیژژیک (متنی) با دیالوگ/میکس پسزمینه عالی بود. تنها شکست: نمایش آژیر در ساعت 0:08، قطع شدن از باز شدن در – اجزای درست، زمان بندی اشتباه.
برنده: Veo 3.1. با وجود اینکه سورا بیشتر احساس میکرد صیقلیتر بود، سختترین قسمتها را نادیده گرفت. Veo همه عناصر را امتحان کرد و خطای زمانبندی او از غفلت کامل سورا چشمگیرتر است.
تست 2: فیزیک شیشه اتومبیل
سختی: راننده در ماشین پارک شده، شیشه ها به سمت پایین باز می شوند، صداهای بیرونی با داپلر آژیر بلندتر می شود، شیشه ها دوباره باز می شوند.
سورا 2 تقریباً آن را میخکوب کرد. پنجره باز می شود، رادیو ثابت می ماند و اثر داپلر قانع کننده به دست می آید. اما به جای افزایش تدریجی صدای بیرون، ناگهان صدای بیرون آمد و پنجره دیگر باز نشد.
Veo 3.1 کاملا شکست خورد. یک درایو در ترافیک با آمبولانس قابل مشاهده و آژیر خوب به صدا درآمده بود، اما پنجره اصلا حرکت نمی کرد. او موارد را به عنوان یک چک لیست در نظر گرفت و رابطه علّی زیربنایی را از دست داد.
برنده: سورا 2. فقط سورا متوجه شد که حرکت پنجره باید محیط آکوستیک را تغییر دهد. اگرچه این تلاش ناقص است، اما مدل سازی فیزیکی عمیق تری را نشان می دهد.
تست 3: خواننده روی دوربین
سختی: خواننده زن انفرادی با اشعار واضح، همراهی پیانو، ریورب مناسب. هیچ مخاطبی وجود ندارد.
انتظار شکست کامل را داشتم. من کاملا اشتباه کردم.
سورا 2 او آن را کاملاً با زیباییشناسی محلی مستقل خود ترکیب کرد: “فانوسها خاموش میشوند اما شب آرام میماند. من جرقهای کوچک در فضای خالی ذهنم نگه میدارم.” اجرای بی عیب و نقص
Veo 3.1 او یک اجرای خیره کننده با همگام سازی کامل لب ارائه کرد: “و حالا که تو رفتی، سکوت سخت ترین بخش آن است.” منسجم، شفاف، به زیبایی مخلوط شده است.
برنده: قرعه کشی چالش “غیرممکن” به خوبی توسط هر دو حل شد. یک مانع فنی اصلی (اشعار منسجم با عمق احساسی) شکسته شده است.
تست 4: از خیابان تا راه پله
سختی: از کوچه بدوید، در فلزی را باز کنید، وارد راه پله شوید. صداهای خارجی خفه می شوند و آکوستیک به سمت بازتاب های باریک تر تغییر می کند.
سورا 2 هرج و مرج بصری ایجاد کرد – شخصیت در یک حلقه گیر کرده است، داخل و خارج می شود. در این سردرگمی، انتقال صوتی به طور کامل از بین رفت.
Veo 3.1 عالی اجرا شد خیابان گرافیتی، در زنگ زده با جغجغه های فلزی، صدای خفه شدن فوری هنگام عبور از آستانه، صدای پا در بتن طنین انداز می شود. انسداد آکوستیک کتاب درسی.
برنده: Veo 3.1. پیروزی قطعی Veo به خوبی نحوه رفتار صدا در محیطها را مدلسازی کرد، در حالی که Sora نتوانست تداوم اولیه را ارائه دهد.
تست 5: پیش بازی آرنا
سختی: زمین بسکتبال پر می شود، شعارهای فراخوان و پاسخ، اعلامیه های PA در میان جمعیت آشکار می شود.
سورا 2 تصاویری با میخ از جمله انگشتان فوم و بریدگی بلندگو. صدای غرش جمعیت و کیفیت PA خوب است، اما من کاملاً تعامل تماس و پاسخ را از دست دادم.
Veo 3.1 از نظر بصری به چالش کشیده اما صدای خیره کننده ای ارائه می کند. PA: “بیایید صدای خود را برای پنج نفر برتر شما بلند کنیم!” به دنبال آن یک انفجار جمعیت کاملاً به موقع. این لایه بندی نیست. شبیه سازی تعامل زنده است.
برنده: Veo 3.1. علیرغم مشکلات بصری، Veo میداند که چگونه صداها با هم تعامل دارند. ایجاد تماس و پاسخ قابل باور مستلزم درک واقعی پویایی زنده است.
تست 6: تعویض هوای ایوان
سختی: ایوان روستایی، غوغای حشرات، شروع باران از نیمه راه؛ ابتدا قطرات کم روی سقف حلبی، سپس باران مداوم.
سورا 2 او صحنه را کاملاً با یک محیط زیبا تنظیم کرد. بعد… هیچی. باران نیامد
Veo 3.1 او سکانس را امتحان کرد اما ناشیانه. باران چنان شدید بارید که سگ دوید تا پنهان شود. در آغاز هیچ فضایی وجود ندارد، فقط سکوت در برابر باران شدید عمومی. ما “قطعات نادر روی قلع” بسیار مهم را از دست دادیم.
ناگفته نماند، جلوه های بصری در اینجا کاملاً آشفته است. چرا گیاهان درخشان وجود دارند؟
برنده: Veo 3.1 (به طور پیش فرض). هر دو شکست خوردند، اما وئو یک شکست در تسلط بود، در حالی که سورا یک عدم درک کامل بود.
تست 7: بازار دو زبانه
سختی: دو نفر به زبان انگلیسی/اسپانیایی با تعویض کد. تماس های فروشنده، صداهای فلزی، ترافیک. موسیقی وجود ندارد.
سورا 2 مکالمات نرم و طبیعی را با تعویض کد بی دردسر با همگام سازی کامل لب ایجاد کرد. اما با از دست دادن تماسهای فروشنده و صداهای درخواستی فلز، جو کلی بازار را ایجاد کرد.
Veo 3.1 اجرای فوق العاده واقع گرایانه ای ارائه کرد. گفتگوی دو زبانه را با تغییر کد طبیعی، تماسهای متمایز با فروشنده، و حتی زنگ مقیاس تعادل (0:01-0:03) پاک کنید. او منظره صوتی را از مواد مورد نظر خاص ایجاد کرد.
برنده: Veo 3.1. توانایی برتر برای جداسازی و ایجاد صداهای خاص و لایه ای در حالی که دیالوگ را تمیز نگه می دارد.
رای: Veo 3.1 5-1 برد
|
تست کنید |
Veo 3.1 |
سورا 2 |
|---|---|---|
|
بحث روی میز |
🏆 |
ردیف 0 – سلول 2 |
|
پنجره ماشین |
ردیف 1 – سلول 1 |
🏆 |
|
خواننده |
برای اتصال |
برای اتصال |
|
خیابان |
🏆 |
ردیف 3 – سلول 2 |
|
آرنا |
🏆 |
ردیف 4 – سلول 2 |
|
آب و هوا |
🏆 |
ردیف 5 – سلول 2 |
|
دو زبانه |
🏆 |
ردیف 6 – سلول 2 |
|
مجموع |
5 |
1 |
پس از هفت دور، Veo 3.1 با هماهنگی سریع و پیچیدگی صوتی به این امر دست می یابد. در حالی که Sora 2 بهتر به نظر می رسید و بیشتر اوقات احساس جوی بیشتری داشت، اغلب دستورالعمل های صوتی و تصویری دشوار را نادیده می گرفت.
Veo دستورات پیچیده و چند لایه را بارها و بارها اجرا می کرد. او تعامل crowd-PA را درک کرد، بازارهایی را از صداهای خاص ایجاد کرد، و انتقالات آکوستیک را بدون نقص انجام داد. سورا محیط های قابل باوری ایجاد می کند. Veo فیلمنامه را دنبال می کند.
Veo 3.1 یک مهندس صدا است – اجرای واقعی، دقت فنی، عالی در میکس و لایه بندی صداهای تعاملی خاص.
Sora 2 خالق محیط است – الگوبرداری از طبیعت گرایی و رئالیسم فیزیکی، درک اینکه محیط ها چگونه باید احساس کنند، بیشتر هنرمند تا تکنسین.
موفقیت اشعار سروصدای جهانی ایجاد کرد. هر دو مانعی به ظاهر غیرقابل عبور را شکستند. اما ظرافت همچنان یک چالش است. انتقال تدریجی و طراحی دقیق صدا هنوز محدودیت هستند.
ما شاهد تکامل ویدئوهای هوش مصنوعی از مولدهای بصری به شبیه سازهای جهانی هستیم. در نهایت آنها یاد می گیرند که همه چیز را واقعی جلوه دهند و این همه تفاوت را ایجاد می کند.
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.
اطلاعات بیشتر از راهنمای تام
بازگشت به لپ تاپ



