Sora 2 در مقابل Veo 3.1: من هر دو سازنده ویدیوی هوش مصنوعی را با 7 فرمان صوتی آزمایش کردم – این برنده است

پروین میرمیراننوامبر 8, 2025آخرین به روز رسانی: نوامبر 8, 2025

2,664 خواندن این مطلب 6 دقیقه زمان میبرد

Sora 2 در مقابل Veo 3.1: من هر دو سازنده ویدیوی هوش مصنوعی را با 7 فرمان صوتی آزمایش کردم – این برنده است

همه به این فکر می‌کنند که کدام سازنده ویدیوی هوش مصنوعی زیباترین پیکسل‌ها را تولید می‌کند، اما آنها کاملاً از این موضوع غافل هستند. میدان نبرد واقعی بین Sora 2 از OpenAI و Veo 3.1 گوگل، وفاداری بصری نیست، بلکه پیچیدگی شنیداری و واقع گرایی فضایی است.

هر دو مدل ویژگی های خاص خود را دارند. ویژگی Cameo در Sora 2 به شما امکان می دهد خود را به زیبایی وارد صحنه کنید. Veo 3.1 سازگاری بین صحنه ها را بهبود می بخشد. اما دارایی واقعی آنها صدا است و هر دو به طرز شگفت انگیزی در آن خوب هستند. بر خلاف مدل های دیگر که صدا یک افزونه است، Sora و Veo نیز به داده های آموزشی اضافه می شوند.

اینها فقط سازندگان ویدیو با موسیقی اضافه نیستند. آنها سعی می کنند محیط های صوتی، تغییرات داپلر، ویژگی های پژواک و نحوه جریان صدا بین فضاها را مدل کنند. گاهی اوقات آنها بسیار موفق هستند. گاهی اوقات آنها به گونه ای شکست می خورند که نشان می دهد این مشکل واقعا چقدر دشوار است.

آزمایش آنچه مهم است

طراحی صدای خوب نامرئی است. شما فقط زمانی متوجه می شوید که اشتباه باشد. یک کافه احساس واقعی می کند زیرا صدای خش خش دستگاه اسپرسوساز، در که صدای کوتاهی از خیابان به گوش می رسد و دیالوگ هایی که به طور طبیعی در فضا نشسته است را می شنوید. هر عنصری را اشتباه نفهمید و توهم فرو ریخت.

بخشی از کارم را در رادیو گذراندم، سپس محیط های صوتی را برای اولین ویدیوهای هوش مصنوعی ایجاد کردم. چندین لایه از یک صدا اغلب برای احساس درست مورد نیاز بود.

من هفت سناریو طراحی کردم که قابلیت‌های صوتی مختلف را با اجرای همان فرمان‌ها در هر دو سیستم آزمایش می‌کردند. من برای دقت فضایی، انسجام محیطی، دقت همگام‌سازی، و جزئیات ظریفی که صحنه‌ها را زنده می‌کنند، گوش دادم – تنفس قبل از آواز خواندن، خش‌خش پارچه، نحوه فشرده شدن صدای جمعیت هنگام ورود یک سیستم PA.

برای این آزمایش‌ها، من کمتر بر روی آنچه که از نظر بصری اتفاق می‌افتد تمرکز کردم، برخی از اشکالات آشکار یا بدبختی‌های خنده‌دار در کلیپ‌ها را نادیده گرفتم.

تست 1: مکالمه روی میز کافه

سختی: دو نفر با هم صحبت می کنند، باریستا کار می کند، در وسط صحنه با آژیر داپلر باز می شود. موسیقی پس زمینه وجود ندارد.

سورا 2 صحنه ای زیبا و خوش خلق با دیالوگ های برجسته و زمزمه محیطی عالی خلق کرد. با این حال، او به طور کامل آزمایش در/آژیر را نادیده گرفت و علی رغم دستورالعمل ها، موسیقی سبک جوی را اضافه کرد.

Veo 3.1 دقیقاً همان کاری را که خواسته شد انجام داد: باریستای قابل مشاهده، دستگاه اسپرسوساز قابل شنیدن، باز شدن در در ساعت 0:02. صدا کاملاً دیژژیک (متنی) با دیالوگ/میکس پس‌زمینه عالی بود. تنها شکست: نمایش آژیر در ساعت 0:08، قطع شدن از باز شدن در – اجزای درست، زمان بندی اشتباه.

برنده: Veo 3.1. با وجود اینکه سورا بیشتر احساس می‌کرد صیقلی‌تر بود، سخت‌ترین قسمت‌ها را نادیده گرفت. Veo همه عناصر را امتحان کرد و خطای زمان‌بندی او از غفلت کامل سورا چشمگیرتر است.

تست 2: فیزیک شیشه اتومبیل

سختی: راننده در ماشین پارک شده، شیشه ها به سمت پایین باز می شوند، صداهای بیرونی با داپلر آژیر بلندتر می شود، شیشه ها دوباره باز می شوند.

سورا 2 تقریباً آن را میخکوب کرد. پنجره باز می شود، رادیو ثابت می ماند و اثر داپلر قانع کننده به دست می آید. اما به جای افزایش تدریجی صدای بیرون، ناگهان صدای بیرون آمد و پنجره دیگر باز نشد.

Veo 3.1 کاملا شکست خورد. یک درایو در ترافیک با آمبولانس قابل مشاهده و آژیر خوب به صدا درآمده بود، اما پنجره اصلا حرکت نمی کرد. او موارد را به عنوان یک چک لیست در نظر گرفت و رابطه علّی زیربنایی را از دست داد.

برنده: سورا 2. فقط سورا متوجه شد که حرکت پنجره باید محیط آکوستیک را تغییر دهد. اگرچه این تلاش ناقص است، اما مدل سازی فیزیکی عمیق تری را نشان می دهد.

تست 3: خواننده روی دوربین

سختی: خواننده زن انفرادی با اشعار واضح، همراهی پیانو، ریورب مناسب. هیچ مخاطبی وجود ندارد.

انتظار شکست کامل را داشتم. من کاملا اشتباه کردم.

سورا 2 او آن را کاملاً با زیبایی‌شناسی محلی مستقل خود ترکیب کرد: “فانوس‌ها خاموش می‌شوند اما شب آرام می‌ماند. من جرقه‌ای کوچک در فضای خالی ذهنم نگه می‌دارم.” اجرای بی عیب و نقص

Veo 3.1 او یک اجرای خیره کننده با همگام سازی کامل لب ارائه کرد: “و حالا که تو رفتی، سکوت سخت ترین بخش آن است.” منسجم، شفاف، به زیبایی مخلوط شده است.

برنده: قرعه کشی چالش “غیرممکن” به خوبی توسط هر دو حل شد. یک مانع فنی اصلی (اشعار منسجم با عمق احساسی) شکسته شده است.

تست 4: از خیابان تا راه پله

سختی: از کوچه بدوید، در فلزی را باز کنید، وارد راه پله شوید. صداهای خارجی خفه می شوند و آکوستیک به سمت بازتاب های باریک تر تغییر می کند.

سورا 2 هرج و مرج بصری ایجاد کرد – شخصیت در یک حلقه گیر کرده است، داخل و خارج می شود. در این سردرگمی، انتقال صوتی به طور کامل از بین رفت.

Veo 3.1 عالی اجرا شد خیابان گرافیتی، در زنگ زده با جغجغه های فلزی، صدای خفه شدن فوری هنگام عبور از آستانه، صدای پا در بتن طنین انداز می شود. انسداد آکوستیک کتاب درسی.

برنده: Veo 3.1. پیروزی قطعی Veo به خوبی نحوه رفتار صدا در محیط‌ها را مدل‌سازی کرد، در حالی که Sora نتوانست تداوم اولیه را ارائه دهد.

تست 5: پیش بازی آرنا

سختی: زمین بسکتبال پر می شود، شعارهای فراخوان و پاسخ، اعلامیه های PA در میان جمعیت آشکار می شود.

سورا 2 تصاویری با میخ از جمله انگشتان فوم و بریدگی بلندگو. صدای غرش جمعیت و کیفیت PA خوب است، اما من کاملاً تعامل تماس و پاسخ را از دست دادم.

Veo 3.1 از نظر بصری به چالش کشیده اما صدای خیره کننده ای ارائه می کند. PA: “بیایید صدای خود را برای پنج نفر برتر شما بلند کنیم!” به دنبال آن یک انفجار جمعیت کاملاً به موقع. این لایه بندی نیست. شبیه سازی تعامل زنده است.

برنده: Veo 3.1. علی‌رغم مشکلات بصری، Veo می‌داند که چگونه صداها با هم تعامل دارند. ایجاد تماس و پاسخ قابل باور مستلزم درک واقعی پویایی زنده است.

تست 6: تعویض هوای ایوان

سختی: ایوان روستایی، غوغای حشرات، شروع باران از نیمه راه؛ ابتدا قطرات کم روی سقف حلبی، سپس باران مداوم.

سورا 2 او صحنه را کاملاً با یک محیط زیبا تنظیم کرد. بعد… هیچی. باران نیامد

Veo 3.1 او سکانس را امتحان کرد اما ناشیانه. باران چنان شدید بارید که سگ دوید تا پنهان شود. در آغاز هیچ فضایی وجود ندارد، فقط سکوت در برابر باران شدید عمومی. ما “قطعات نادر روی قلع” بسیار مهم را از دست دادیم.

ناگفته نماند، جلوه های بصری در اینجا کاملاً آشفته است. چرا گیاهان درخشان وجود دارند؟

برنده: Veo 3.1 (به طور پیش فرض). هر دو شکست خوردند، اما وئو یک شکست در تسلط بود، در حالی که سورا یک عدم درک کامل بود.

تست 7: بازار دو زبانه

سختی: دو نفر به زبان انگلیسی/اسپانیایی با تعویض کد. تماس های فروشنده، صداهای فلزی، ترافیک. موسیقی وجود ندارد.

سورا 2 مکالمات نرم و طبیعی را با تعویض کد بی دردسر با همگام سازی کامل لب ایجاد کرد. اما با از دست دادن تماس‌های فروشنده و صداهای درخواستی فلز، جو کلی بازار را ایجاد کرد.

Veo 3.1 اجرای فوق العاده واقع گرایانه ای ارائه کرد. گفتگوی دو زبانه را با تغییر کد طبیعی، تماس‌های متمایز با فروشنده، و حتی زنگ مقیاس تعادل (0:01-0:03) پاک کنید. او منظره صوتی را از مواد مورد نظر خاص ایجاد کرد.

برنده: Veo 3.1. توانایی برتر برای جداسازی و ایجاد صداهای خاص و لایه ای در حالی که دیالوگ را تمیز نگه می دارد.

رای: Veo 3.1 5-1 برد

برای پیمایش افقی انگشت خود را بکشید

تست کنید	Veo 3.1	سورا 2
بحث روی میز	🏆	ردیف 0 – سلول 2
پنجره ماشین	ردیف 1 – سلول 1	🏆
خواننده	برای اتصال	برای اتصال
خیابان	🏆	ردیف 3 – سلول 2
آرنا	🏆	ردیف 4 – سلول 2
آب و هوا	🏆	ردیف 5 – سلول 2
دو زبانه	🏆	ردیف 6 – سلول 2
مجموع	5	1

پس از هفت دور، Veo 3.1 با هماهنگی سریع و پیچیدگی صوتی به این امر دست می یابد. در حالی که Sora 2 بهتر به نظر می رسید و بیشتر اوقات احساس جوی بیشتری داشت، اغلب دستورالعمل های صوتی و تصویری دشوار را نادیده می گرفت.

Veo دستورات پیچیده و چند لایه را بارها و بارها اجرا می کرد. او تعامل crowd-PA را درک کرد، بازارهایی را از صداهای خاص ایجاد کرد، و انتقالات آکوستیک را بدون نقص انجام داد. سورا محیط های قابل باوری ایجاد می کند. Veo فیلمنامه را دنبال می کند.

Veo 3.1 یک مهندس صدا است – اجرای واقعی، دقت فنی، عالی در میکس و لایه بندی صداهای تعاملی خاص.

Sora 2 خالق محیط است – الگوبرداری از طبیعت گرایی و رئالیسم فیزیکی، درک اینکه محیط ها چگونه باید احساس کنند، بیشتر هنرمند تا تکنسین.

موفقیت اشعار سروصدای جهانی ایجاد کرد. هر دو مانعی به ظاهر غیرقابل عبور را شکستند. اما ظرافت همچنان یک چالش است. انتقال تدریجی و طراحی دقیق صدا هنوز محدودیت هستند.

ما شاهد تکامل ویدئوهای هوش مصنوعی از مولدهای بصری به شبیه سازهای جهانی هستیم. در نهایت آنها یاد می گیرند که همه چیز را واقعی جلوه دهند و این همه تفاوت را ایجاد می کند.

دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.

اطلاعات بیشتر از راهنمای تام

بازگشت به لپ تاپ

نمایش بیشتر

پروین میرمیراننوامبر 8, 2025آخرین به روز رسانی: نوامبر 8, 2025

2,664 خواندن این مطلب 6 دقیقه زمان میبرد

Sora 2 در مقابل Veo 3.1: من هر دو سازنده ویدیوی هوش مصنوعی را با 7 فرمان صوتی آزمایش کردم – این برنده است

پروین میرمیران

واکنش آرمسترانگ شرکت کوین بیس به اولین توییت مدیر عامل انویدیا – U.Today

وانت جنسیس ممکن است به لطف هیوندای به روی میز بازگردد

گلکسی زد فولد 8 در برابر فولد 8 اولترا و فلیپ 8 محک زده شد — نتایج به شرح زیر است:

XRP ETF سرمایه گذاری را از مدیر دارایی مستقر در کانزاس – U.Today دریافت می کند

لابیست برتر کریپتو می گوید هنوز امیدی برای شفافیت قانون وجود دارد – U.Today

قیمت BMW X5 جدید با تمام آپشن ها بیش از 95000 دلار است

انباشت LTH بیت کوین به بالاترین حد خود در شش سال اخیر می رسد – U.Today

من ماوریک 300 اسب بخاری فورد را سوار کردم. شبیه هات هچ است

آیا دو صفحه نمایش بهتر از یکی در دانشگاه هستند؟ من ایسوس Zenbook Duo را امتحان کردم

راکون ویروسی جیموتی 100٪ واقعی است – اینجا هوش مصنوعی است