مدل ویدیویی “بهتر و سریعتر” نسل 3 با هوش مصنوعی Runway در “چند روز آینده” عرضه می شود
پلتفرم ویدیویی هوش مصنوعی Runway مدل نسل سوم خود را «طی چند روز آینده» منتشر خواهد کرد و این شرکت میگوید که «پیشرفت عمده در وفاداری، سازگاری و حرکت نسبت به مدلهای نسل قبلی» و همچنین بهطور قابل توجهی سریعتر خواهد بود. با توجه به راهنمای تام گفت. .
Runway در ژوئن سال گذشته Gen-2، اولین مدل هوش مصنوعی متن به ویدئو را به صورت تجاری عرضه کرد و از آن زمان انقلابی در ویدئوهای مصنوعی در سراسر جهان راه اندازی شده است. اکنون با شرکت هایی مانند Pika Labs، Haiper، Luma Labs و Sora که هنوز منتشر نشده رقابت می کند.
Gen-3 یک گام بزرگ رو به جلو برای فضای ویدیویی باند و هوش مصنوعی است. این از ابتدا با استفاده از زیرساخت های نسل بعدی برای اهداف آموزش چندوجهی در مقیاس بزرگ بازسازی شد. این مدل جدید برای بهبود واقع گرایی به طور همزمان روی تصویر و ویدیو آموزش داده شد.
عموم مردم می توانند «طی چند روز آینده» به نسخه آلفا دسترسی پیدا کنند. مدیر ارشد فناوری Runway و یکی از بنیانگذاران آناستازیس ژرمنیدیس به من گفتند که این جوانترین مدل از نسل بعدی مدلهای هوش مصنوعی مرزی است که در نتیجه زیرساختهای آموزشی جدید ارائه خواهد شد.
چه چیزی باند Gen-3 را متفاوت می کند؟
Runway Gen-3 شامل یک توانایی پیشرفته برای کنترل حرکت در یک ویدیو و همچنین درک حرکت و فیزیک در دنیای واقعی است. همراه با فوتورئالیسم آن، مدلی دارید که می تواند ویدیوهایی ایجاد کند که تقریباً از واقعیت قابل تشخیص نیستند.
هنگامی که تیم برای اولین بار پس از اتمام دوره آموزشی از Gen-3 استفاده کرد، با شگفتی هایی روبرو شد، از جمله رویکرد رندر صحنه. این چیزی است که با ایجاد حداقل 10 ثانیه ویدیو ممکن می شود. نسل قبلی به حدود چهار ثانیه محدود بود.
ژرمنیدیس گفت: «توانایی ایجاد انتقالهای غیرعادی یکی از سرگرمکنندهترین و شگفتانگیزترین راهها برای استفاده داخلی Gen-3 Alpha بوده است. او به من گفت: «این مدل میتواند تغییرات اساسی در محیط را با نتایج بسیار خوشایند همراه کند و معنا کند.
با Gen-3 Alpha: مدل پایه جدید Runway برای تولید ویدیو آشنا شوید. Gen-3 Alpha می تواند ویدیوهای بسیار دقیق با تغییرات صحنه پیچیده، طیف گسترده ای از گزینه های سینمایی و جهت هنری دقیق ایجاد کند.https://t.co/YQNE3eqoWf(1/10) pic.twitter.com/VjEG2ocLZ817 ژوئن 2024
علاوه بر تغییر صحنه ها و محیط، سطح بسیار بالاتری از “کنترل زمانی” را نیز دارید زیرا با “زیرنویس های بسیار توصیفی در هر صحنه” آموزش داده شده است، که باعث می شود فیلم هایی با تغییرات محیطی و اکشن غیر معمول و جالب تولید کند. و همچنین کادربندی دقیق کلیدی عناصر خاص در طول زمان،” او توضیح داد.
این بهبودهای مدل، همراه با حالتهای کنترل موجود مانند Motion Brush، کنترلهای پیشرفته دوربین، و حالت کارگردان، کنترل بیشتری نسبت به قبل به کاربران ما میدهند.
با استفاده از Gen-3، می توانید با تصاویر، متن و حتی فیلم ها شروع کنید. در حالی که Gen-2 از ویدئو به عنوان ورودی پشتیبانی نمی کند. به گفته ژرمنیدیس، فرقی نمی کند از کدام یک استفاده کنید. Gen-3 Alpha به طور قابل توجهی از نظر سازگاری زمانی بهبود مییابد و انتقالهای بسیار کمتری نسبت به Gen-2 برای ورودیهای متن و تصویر دارد.
ایجاد یک مدل کلی از جهان
Gen-3 Alpha by @runwayml عالی است، اما مدل Gen World بدون صدا چیست😉🎶از نمایشهای نمایشی Runway بهروزرسانی شده با موسیقی دقیق و SFX لذت ببرید! شهر https://t.co/Iq293vT7N6 pic.twitter.com/6nOIeEjRAq17 ژوئن 2024
ژرمنیدیس به تامز گاید گفت که این “اولین مدل از نسل جدید مدل های پایه است که از ابتدا توسط Runway آموزش دیده اند.” او افزود که نسخههای آینده «به مقیاس مدلهای زبانی بزرگ» مانند Google Gemini و Anthropic's Claude خواهند رسید.
همانطور که آزمایشگاههای اصلی AI LLM مانند OpenAI و Anthropic روی هوش عمومی مصنوعی (AGI) کار میکنند، Runway نیز روی ساخت «مدلهای جهانی عمومی» کار میکند.
ژرمنیدیس توضیح می دهد: «مدل جهانی عمومی یک سیستم هوش مصنوعی است که یک نمایش داخلی از یک محیط ایجاد می کند و از آن برای شبیه سازی رویدادهای آینده در آن محیط استفاده می کند.
او افزود: «هدف از مدلهای جهانی عمومی، نمایش و شبیهسازی طیف وسیعی از موقعیتها و تعاملات مشابه آنچه در دنیای واقعی با آن مواجه میشویم، خواهد بود».
ژرمنیدیس به من گفت که اگرچه Gen-3 به خودی خود یک مدل جهان باز نیست، اولین قدم است. “هنوز روزهای اولیه است و این اولین و کوچکترین مدل آینده ما است.”
او هشدار داد: «این مدل میتواند در اثر فعل و انفعالات پیچیده شخصیتها و شیها گرفتار شود، و نسلها همیشه قوانین فیزیک را کاملاً رعایت نمیکنند. بنابراین بیش از حد هیجان زده نشوید، اما به یاد داشته باشید که این تنها یک مرحله است.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide