Sora 2 در GPT-5 مفقود شد اما می تواند بزرگترین پرش در فیلم هوش مصنوعی باشد

OpenAI نسخه جدیدی از مدل ویدیوی پرچمدار AI را در این سه ماه منتشر خواهد کرد. هنگامی که او در این راه اندازی انقلابی بود ، سورا از آن زمان تاکنون زمینه را برای رقبا از دست داده است ، و Veo 3 Google اکنون استاندارد طلا را برای تولید فیلم هوش مصنوعی تعیین کرده است.
من منتظر هستم که سورا 2 در هفته های آینده بیاید ، شاید ماههای با توجه به انتشار سریع GPT-5. مانند GPT-4O ، GPT-5 هنگام انجام کارهای استدلال پیچیده مشابه مدل های سری “O” از هر نوع ورودی یا خروجی (از جمله فیلم) استفاده می کند.
سورا همچنان یک سکوی محکم است. ویژگی Storyboard یک دوره جدید است و مشترکین Chatgpt Pro می توانند تا 20 ثانیه کلیپ ایجاد کنند. با این حال ، مدل اساسی سن خود را نشان می دهد. خروجی هنوز از مشکلات کنترل حرکت ، عدم تولید صدا و مبارزات با فیزیک پیچیده – برخلاف Kling 2.1 یا Minimax 2 رنج می برد.
حتی در زمینه فیلم های اجتماعی ، Openai اکنون تقریباً با هر سکوی هوش مصنوعی از جمله متا ، گوک و مید جورن روبرو است. با این وجود ، Openai قرار است بزرگترین آزمایشگاه هوش مصنوعی جهان با منابع مهم باشد و – با وجود آخرین حملات استعدادی متا – یک تیم مهندسی عالی. هنوز آنها را حساب نکنید.
Openai برای رقابتی به سورا احتیاج دارد
برای رقابت با مدل ویدیویی Google یا رقبای چینی حاصل ، OpenAI باید ضمن گسترش مجموعه ویژگی های Sora ، از ویژگی های چند حالته استفاده کند. ادغام محکم تر چتپ صدمه نمی زند. پنج پیشرفت اساسی برای سورا 2:
1. تولید صدای داخلی قابل مذاکره نیست
به تماشای
اگر Openai بخواهد با Veo 3 به رقابت بپردازد ، Sora 2 به طور طبیعی باید هر دو فیلم و صدا را کنترل کند. هر مدل بدون تولید صدا به عنوان یک ضرر شروع می شود.
در حال حاضر ، سورا فقط کلیپ های خاموش را تولید می کند – و 3 اثر صوتی ، سر و صدای محیط و حتی ویژگی های اساسی هنگام تولید گفتگو ، ضعف مهمی است. این فقط مربوط به برخورد با صدا به عنوان یک فکر نیست. ادغام واقعی
VEO 3 می تواند گفتار شخصیت همزمان لب را به زبان های مختلف ایجاد کند. Sora 2 به همان ویژگی صوتی ساخته شده از مناظر صوتی جوی تا گفتگوی صحبت شده نیاز دارد.
اگر OpenAI کلیپ های 20 ثانیه ای یا تولید کاملاً چند حالته (فیلم + صوتی) را در حالی که طولانی تر است ، ارائه می دهد ، فقط می تواند به VEO 3 پیشرفت کند.
2. شبیه سازی فیزیک باید به میزان قابل توجهی بهبود یابد

واقع گرایی بصری فراتر از راه حل – اساساً در مورد فیزیک است. رسانه های مرتب سازی موجود اغلب حرکت غیر طبیعی یا فیزیک تحریف شده را نشان می دهند: آب که گرانش را به چالش می کشد ، اشیاء غیرقابل پیش بینی که باعث ایجاد مورف یا اساساً احساس اشتباه می شوند.
گوگل به وضوح فیزیک را در دنیای واقعی با VEO 3 در اولویت قرار داده است و نتایج برای خودشان صحبت می کنند. فیلم های او در شبیه سازی فیزیک واقع گرایانه و حرکت پویا با حداقل اختلال عالی است. در همین حال ، مدل قدیمی سورا حرکت پرتنش و تعامل شیء متناقض ایجاد می کند که غوطه وری را خرد می کند.
برای اینکه Sora 2 به رقابت بپردازد ، باید رفتارهای دنیای واقعی را از پیاده روی های طبیعی انسان گرفته تا دینامیک دود گرفته تا مکانیک سیال درک کند. Openai اساساً باید یک موتور فیزیکی را در سورا ادغام کند. حرکات و فعل و انفعالات باورنکردنی (دیگر اندامهای خمشی یا پس زمینه ذوب) شکاف مهمی را با رقبا بسته می کند.
3. ادعای گفتار باید استاندارد باشد

Ace Openai در سوراخ؟ Chatgpt قبلاً میلیون ها سخنران را برای برقراری ارتباط با هوش مصنوعی آموزش داده است. Sora 2 باید با ایجاد احساس ایجاد گفتگو ، نه برنامه نویسی ، از آن استفاده کند.
این سیستم به جای خواستار مطالبات عالی یا ناوبری رابط پیچیده ، باید از درمان عقب مانده طبیعی پشتیبانی کند. Google در حال حاضر این جنبه را در حال حرکت است – ابزار Flow از Gemini AI برای ارائه درخواست زبان بصری و روزانه استفاده می کند.
باند این کار را با یک حالت چت انجام می دهد و اکنون به Gen-4 اجازه می دهد تا یک مورد واحد را به طرز ماهرانه ای توسعه دهد. ماشین رویایی لوما از ابتدا با این مفهوم ساخته شده است.
این گردش کار را تصور کنید: “قرون وسطا را روی کوه بنویسید” ، یک فیلم پیش نویس بگیرید ، سپس فقط بگویید “تولد خورشید و اضافه کردن اژدها” و مرحله را فوراً به روز کنید. این رویکرد گفتار باعث تسریع در گردش کار برای متخصصان و کاهش موانع تازه واردان می شود.
فناوری وجود دارد. ChatGPT قبلاً درخواست های پیگیری را تفسیر می کند و خروجی ها را به صورت پویا تنظیم می کند (همانطور که در ادغام تصویر محلی نشان داده شده است). Sora 2 ، که کاملاً با ChatGPT یکپارچه شده است ، باید به ما اجازه دهد تا در مورد راه خود به فیلم های عالی صحبت کنیم. این تجربه کاربر از تکنیکی که اکثر شرکت کنندگان هنوز به آن احتیاج دارند ، تحت الشعاع قرار می دهد.
همچنین به تولید تصویر محلی اجازه می دهد ، سپس نحوه کار Google با Veo 3 در Gemini یا انیمیشن که از SORA استفاده می کند ، مشابه ویژگی جدید Gok Imagine.
4. قوام شخصیت و خصوصی سازی مهم است

شخصیت و قوام مرحله نشان دهنده یک زمینه مهم دیگر برای پیشرفت است. در حال حاضر ، تولید دو کلیپ “یک دختر در لباس قرمز” می تواند دو نفر مختلف تولید کند. خروجی های سورا به سبک و جزئیات بین نسل ها کشیده می شوند و داستان های چند منظوره یا شخصیت های تکراری را تقریباً غیرممکن می کنند.
SORA 2 باید شخصیت ها ، اشیاء و سبک های هنری سازگار را در فیلم های طولانی تر یا سری کلیپ فعال کند. رقبا در حال حاضر این را ارائه می دهند – Kling 2.1 به “شخصیت های سازگار و درخواست های مستقیم متن” “نورپردازی سینمایی” می بالد. جریان گوگل حتی بیشتر می رود و به موجودات خصوصی به عنوان “مواد” در صحنه های مختلف اجازه می دهد.
OpenAI باید ویژگی های مشابهی را ارائه دهد: بارهای تصویر مرجع ، تنظیم خوب سبک یا ماندگاری شخصیت در صحنه ها. اگر Sora 2 بتواند ظاهر یک شخصیت سازگار را برای یک فیلم حفظ کند ، خدمه محتوا می توانند به جای تولید کلیپ های برش ، داستان ها را بگویند. به خصوص اگر ادغام صوتی محلی در کلیپ 20 ثانیه ای داشته باشید.
قوام و خصوصی سازی با هم کار می کنند – هنرمندی باشید که از سبک امضا یا یک فیلمساز که به تداوم شخصیت احتیاج دارد ، محافظت می کند ، Sora 2 باید این کنترل را ارائه دهد.
5. ادغام عمیق Catgpt و دسترسی جهانی

سرانجام ، OpenAI باید با ادغام عمیق SORA 2 در ChatGPT ، ضمن فراهم کردن دسترسی گسترده ، مزیت اکوسیستم را به حداکثر برساند. VEO Google به یک مجموعه وسیله نقلیه گسترده تر (ادغام جمینی ، دسترسی API ، برنامه جریان) وصل شده است و به ناچار ویدیوی AI را روی محصولات خود قرار می دهد.
OpenAi ممکن است با ساختن Sora 2 به ویژگی chatgpt بی وقفه متمایز شود. استفاده از این رویکرد در SORA 2 به میلیون ها نفر از کاربران Chatgpt یک استودیوی ویدیویی هوش مصنوعی بدون تغییر برنامه ها می دهد. آنها می توانند Google را دنبال کنند و با یک برنامه حق بیمه برای دسترسی نامحدود – اکنون با Chatgpt Pro و Sora ، در این فیلم محدودیت کم داشته باشند.
بهینه سازی موبایل بسیار مهم است. سازندگان امروز کاملاً می کشند ، ویرایش و منتشر می کنند. Tiktok و Reels Creator Market اگر Sora 2 در برنامه تلفن همراه Chatgpt (یا یک برنامه خورشیدی ویژه با تولید سریع) کار می کند. تصور کنید که شما گفتید که من یک فیلم 15 ثانیه ای را به عنوان یک فضانورد کارتونی ساخته ام که به مریخ می رود و فوراً برای سهام محتوا می گیرم.
OpenAI می تواند به سرعت در هنگام جمع آوری بازخوردهای اولیه بهبود از طریق ChatGPT ، API های توسعه دهنده و سیستم عامل های موبایل – با نگه داشتن Sora 2 در همه جا ، پایگاه کاربر را ایجاد کند.
سیستم عامل هایی مانند Leonardo ، Freepic و Higgsfield در حال حاضر از Google’s Veo 3 و Hailuo’s Minimax 2 استفاده می کنند زیرا می توانند از طریق چشمگیر ، سریع و از طریق API استفاده شوند – OpenAI در حال به روزرسانی سورا است و در پشت زمینه خلاق AI باقی مانده است.
از همه پس
Openai این فرصت را دارد که با یادگیری موفقیت رقبا ، رهبری را بازیابی کند. Google’s Veo 3 در حال حاضر برای مقایسه مقایسه با صدای محلی ، فیزیک واقع گرایانه و هارمونی سریع قوی تنظیم شده است ، در حالی که در حال توسعه مدل هایی مانند Kling 2.1 و Minimax 2 به فشار مرزها ادامه می یابد.
این آهنگ با ظرافت های جدید در مدل Gen-4 پیشرفت می کند ، که از نظر فیزیک از کیفیت مشابهی برخوردار است ، اما شبیه به ویژگی های بیشتر است و بیشتر از یک فضای ارزشمند بر بازار خلاق مانند Pika و نیروهای Openai تمرکز دارد.
Sora 2 فقط نمی تواند افزایش به روزرسانی باشد – باید تعجب کند.
اخبار دلگرم کننده؟ OpenAI دارای عناصر اساسی است: یک مدل زبان قدرتمند ، یک مدل ویدیویی نسل اول که بر روی آن ساخته می شود ، و پایگاه کاربر بزرگ Chatgpt. اگر OpenAI تولید صدای محلی ، فیزیک واقع گرایانه ، سهولت در گفتار ، قوام شخصیت و ادغام محصول صاف را ارائه می دهد ، Sora 2 را می توان در بازی های خود Veo 3 ، Chling و کل منطقه بسیار خوب خورد.
وقتی همه چیز به هم می رسد ، تعجب نکنید اگر ویدیوی ویروسی بعدی AI در فید شما با Sora 2 ایجاد می شود.


