نبرد در صنعت ویدیوی هوش مصنوعی در حال داغ شدن است. در حالی که وعده SORA OpenAI هنوز محقق نشده است، برخی از تازه واردان مانند KlingAI هستند که واقعاً سرعت را تعیین می کنند. یکی از کهنهکارهای این بازی، RunwayML، پیشگام ویدیویی هوش مصنوعی مستقر در نیویورک است که به تازگی Gen-3 از مجموعه محصولات ویدیویی بسیار توانمند خود را منتشر کرده است.
میدان ویدیوی هوش مصنوعی که به طور فزاینده ای شلوغ می شود، سطح کیفیت و عملکرد را بالا می برد. در حالی که یک سال پیش کلیپ های ویدئویی آشفته بازیگران در حال خوردن اسپاگتی قابل قبول بود، اکنون تصاویر متحرک واقعاً باشکوه و واقعی به صفحه نمایش ما می رسد. رقابت Runway بهروزرسانی قابلتوجهی در فناوری آن، هم از نظر وضوح، هم از نظر سازگاری و هم از نظر وفاداری ویدیویی نشان میدهد.
بررسی تریبون: ویژگی ها
توجه به این نکته مهم است که Runway فقط یک ابزار ایجاد ویدیو نیست. در واقع، این پلتفرم با طیف گسترده ای از ابزارها برای ویرایش، سفارشی سازی و بهبود ویدئوها و تصاویر بسته بندی شده است. همچنین یک پاک کننده پس زمینه متن به تصویر و صفحه سبز وجود دارد. همچنین ابزارهایی برای تصویر به ویدئو، صدای تولیدی، مقیاس بندی و درون یابی فریم وجود دارد. در مجموع 32 ابزار رسانه ای برای تقریباً هر هدف ویرایش رسانه ای که فکرش را بکنید.
پنج طرح وجود دارد، از یک طرح رایگان با 125 اعتبار برای 25 تصویر دارای واترمارک (غیر قابل تمدید) تا یک طرح نامحدود 95 دلاری در ماه برای 2250 اعتبار تصویر نسل 3 و توانایی آموزش یک مدل به سبک خاص. اینها سخاوتمندانه ترین طرح های موجود در بازار نیستند، به خصوص در مقایسه با تعداد رو به رشد رقبای بین المللی، اما برای اکثر افراد، طرح استاندارد برای 625 اعتبار تصویر نسل 3 با قیمت 15 دلار در ماه، نقطه خوبی برای شروع است.
- پنج طرح، از جمله یک طرح رایگان یک بار
- ویرایش پیشرفته ویدیو با ادغام هوش مصنوعی یکپارچه کار می کند
- عملکرد پروژه و تیم برای متخصصان استودیوهای شرکتی/خلاق
نقد تریبون: برداشت های اولیه
داشبورد صفحه اصلی دسترسی فوری به ابزارهایی را که اکثر کاربران به صورت روزانه به آن نیاز دارند، فراهم می کند. متن به ویدیو، ویدیو به ویدیو، فیلم Lip Sync و حذف پسزمینه احتمالا بسیار محبوب خواهند بود. گزینه های منو با این واقعیت افزایش می یابد که می توانید هر گزینه ای را به عنوان مورد علاقه برچسب گذاری کنید. در این مرحله در بالای صفحه در دسترس است تا ناوبری را آسان تر کند.
تمرکز تجاری محصول با مکان برجسته بخشهای Assets و Workspace در نوار کناری تأیید میشود. در اینجا میتوانید همه خلاقیتهای خود را در پوشهها و زیر برچسبهای سفارشی سازماندهی و به اشتراک بگذارید، و ایجاد سریع و آسان مجموعهای از داراییهای تجاری قابل استفاده مجدد را آسان میکند. این یکی از ویژگیهایی است که اغلب توسط پلتفرمهای جدید نادیده گرفته میشود، اما زمانی که تیمهای شما هر روز بر روی مواد سازمانی کار میکنند بسیار مهم است.
علاوه بر این، استفاده از Projects که بهترین بخشهای ویرایش ویدیو را با هوش مصنوعی ترکیب میکند، به کاربران تیم کنترل زیادی بر گردش کار خود ارائه میدهد، که باز هم برای کاربران تجاری مهم است. توابع اصلی ویرایش حول یک موتیف خط زمانی ویدیویی سنتی می چرخند، بنابراین قطعاً فقط یک دستور هوش مصنوعی نیست و کار شما تمام شده است. برخی از ویرایش های جدی می تواند برای ایجاد هر کلیپ، از جمله صفحه سبز، ردیابی حرکت، و فیلترها انجام شود. در این مرحله همه چیز کمی پیچیده می شود.
این مجموعه جامع از ویرایش ها چیزی است که Runway را از رقبای خود متمایز می کند، اما این نقطه قوت نیز کمی ضعف است. برای استفاده حداکثری از این پلتفرم، کاربران قطعاً باید زمان خود را صرف آموزش های گسترده کنند آکادمی تریبونسیستم کمک یکپارچه ترکیبی از هوش مصنوعی پیشرفته و ویرایش پیشرفته به این معنی است که شما می توانید هر چیزی را که می خواهید یا تصور می کنید ایجاد کنید. اما یادگیری از ابتدا کار ساده ای نیست.
بررسی تریبون: در حال استفاده
بسیاری از کاربران، به خصوص در قسمت پایین، احتمالا Runway را به عنوان یکی دیگر از سازندههای ویدیوی هوش مصنوعی میبینند، و اگر منصف باشیم، میتوانند با استفاده از این روش ارزش خوبی کسب کنند. در این سطح، شما واقعاً فقط از جعبه فرمان استفاده میکنید و فقط برخی از ویرایشهای اولیه را در نتایج انجام میدهید.
به عنوان مثال، من یک ویدیوی سریع و ساده Lip Sync را در حدود پنج دقیقه تنظیم کردم و نتایج خیره کننده بود. با این حال، من مطمئن نیستم که استفاده از ابزار آواتار مانند HeyGen در ارتباط با صدای ElevenLabs کمتر تاثیرگذار باشد – و در یک فرآیند کوتاه تر و کم زحمت تر.
تماشا کنید
تا حدودی می توانم این را عمدی ببینم. نگاهی گذرا به گالری کاربران این پلتفرم نشان میدهد که این شرکت به جای یک سرویس ویرایش ویدیو، یک رهبر هنری است. این اشاره به هالیوود تقریباً در هر ویدیویی که دیده ایم مشهود است. استودیو Runway صفحه گالری مطمئناً میتوانید ویدیوهای بازاریابی شرکتی ارزان بسازید، به نظر میرسد دموها این را میگویند، اما ما در واقع میخواهیم از ما برای خلق آثار هنری برنده جایزه استفاده کنید. این یک تمایز بزرگ است، همانطور که Midjourney عمداً به جای ترفندهای بازاریابی دنیوی، به تصویرسازان هنری متوسل می شود.
با در نظر گرفتن این موضوع، آیا می توان گفت که Runway آنچه را که بازار عمومی واقعاً به آن نیاز دارد ارائه می دهد؟ پاسخ یک بله مبهم است. در حالی که هیچ یک از ابزارهای مختلف ارائه شده مسلما بهترین در کلاس نیستند، با هم ترکیبی عالی از ویژگی های هوش مصنوعی را ارائه می دهند که هر کسی می تواند هر زمان که نیاز داشته باشد از آن استفاده کند. طولی نکشید که یک کلیپ ویدیویی همگامسازی شده با لب تهیه کنید، آن را در ویرایشگر صفحه سبز بارگذاری کنید و پسزمینه را کاملاً جایگزین کنید. چیزی که چند سال پیش مقدار زیادی کار می کرد، اکنون چند دقیقه طول می کشد.
من اکثر ابزارهای روی پلتفرم را امتحان کردم و همه آنها همانطور که انتظار می رفت کار کردند. حرکت آهسته باعث میشود چیزها واقعاً جالب به نظر برسند، من از تشخیص صحنه برای تقسیم یک ویدیو به صحنهها استفاده کردم، یک ریمیکس پسزمینه برای جلوههای ترکیبی اجرا کردم و رنگ را به یک تصویر سیاه بازگرداندم. همه چیز کار می کرد، اما برخی از رندرها به طور قابل توجهی عجیب و غریب بود، به خصوص چهره ها. من حتی یک بافت سه بعدی میوه ای ایجاد کردم تا از آن به عنوان بخشی از دارایی های خیالی خود در بازی استفاده کنم. اما با تمام اینها، نمیتوانستم خودداری کنم اما احساس میکردم که موضوع را از دست دادهام.
نکته این است که Runway بسیار بیشتر از مجموع ابزارهای جداگانه آن است. برخلاف بسیاری از ابزارهای هوش مصنوعی دیگر در حال حاضر در بازار، این ابزار برای استفاده هنرمندان واقعی بصری طراحی شده است، نه فقط کاربران شرکتی و مصرف کنندگانی که به دنبال یک هک ویدیوی سریع در مهلت مقرر هستند. همانطور که یادگیری نحوه استفاده حداکثری از پلتفرم زمان می برد، یک «چشم هنرمند» نیز برای ترکیب عناصر به چیزی زیبا و ارزشمند نیاز دارد.
بنیانگذاران این شرکت در یک مدرسه هنری در نیویورک ملاقات کردند و از این پلتفرم برای تولید فیلم های پرفروش هالیوود، موزیک ویدیوهای افرادی مانند کانیه وست و برنامه های تلویزیونی مانند The Late Show استفاده شده است. این محصول تبدیل متن به ویدئو با هوش مصنوعی مادربزرگ شما نیست. بحث های اخیر در مورد مدل های آموزشی در مطالب یوتیوب را کنار بگذارید و این واقعیت را در نظر بگیرید که این شرکت در واقع میزبان جشنواره های سالانه فیلم هوش مصنوعی در نیویورک و لس آنجلس است.
نقد تریبون: خوب، بد و زشت
مهم است که به یاد داشته باشید که RunwayML Adobe Inc با میراث نرمافزاری چهار دهه نیست، ابزارهای نسل X این شرکت مسلماً دنیای ویرایش ویدیو را بیش از هر شرکت دیگری در تاریخ اخیر مختل کرده است – و تنها در هجده ماه از عرضه اولین محصول آن میگذرد. . در حالی که Avid و Adobe در میان فیلمسازان حرفهای رتبههای برتر ویرایش ویدیو را دارند، عمق و تطبیقپذیری نسل 3 این چالش را از نظر ارائه نتایج ویرایش با کیفیت بالا با استفاده از هوش مصنوعی به چالش کشیده است.
با این حال، همانطور که گفته شد، این پلت فرم نوزاد هنوز راه زیادی در پیش دارد تا اینکه به یک مدعی واقعی برای تاج تبدیل شود. اول از همه، دستیابی به یک نتیجه درجه یک در سطح حرفه ای هنوز یک چالش است. میراث این شرکت به عنوان یکی از توسعه دهندگان فناوری تصویربرداری Stable Diffusion هم یک نقطه قوت و هم یک ضعف است. واضح است که تمرکز بر ارائه ویدیوهای نوآورانه بر روی کار توسعه در رندر سایه انداخته است، و این در سازگاری و وفاداری ضعیف بسیاری از نتایج Runway Gen 3 نشان میدهد. اما Gen 3 هنوز در آلفا است، بنابراین شاید باید آن را ببخشیم.
اما این رابط است که در این مرحله و قبل از اینکه خیلی دیر شود واقعاً به کمک نیاز دارد. بنا به دلایلی تجربه کاربری مانند گشت و گذار در اتاق خواب یک نوجوان نامرتب است. چیزهایی در همه جا پراکنده هستند، بدون نظم و ترتیب قابل تشخیص. به عنوان مثال، چرا دو گزینه منوی عنوان جداگانه برای Generative Audio و Lip Sync Video وجود دارد در حالی که عملکردهای یکسانی دارند؟
و چرا دو رابط ویژگی وجود ندارد که از نظر ظاهری و ظاهری سازگار باشند؟ هر جزء از پلتفرم به طرز گیج کننده ای متفاوت است، حتی زمانی که عملکرد و رابط کاربری به راحتی می تواند سازگارتر باشد. و ایده درخشان چه کسی بود که قابلیت ویرایش ویدیوی اصلی را در زیر دکمه “بیشتر” در نوار کناری دفن کرد؟ اوه
نقد تریبون: نتیجهگیری
برای منصفانه بودن RunwayML، UX و UI اغلب آخرین عناصری هستند که در عجله دیوانهوار برای دستیابی به تناسب با بازار محصول مورد توجه قرار میگیرند. بهبود ویژگیها، رفع اشکالها و پاسخگویی به انتظارات بازار اغلب تمام هوای اتاق را مصرف میکند و مقدار کمی برای نیازهای کاربری ضعیف مشتری باقی میماند. از eBay بپرسید اما ما به سرعت به پایان دوره ماه عسل با برنامه های هوش مصنوعی نزدیک می شویم و اگر این شرکت به برخی از مسائل کلیدی رسیدگی نکند، ممکن است شخص دیگری بیاید و بازار را بدزدد.
در حالی که تجربه من با این پلتفرم به دلیل فقدان کامل مهارت های هنری من محدود بود، کافی بود تا به من نشان دهد که این محصول به دلایل درست آینده ای روشن دارد. صیقلی نیست، اما به وضوح بسیار قدرتمند است و تمام عناصر را برای رقابت با هر چیز دیگری در بازار از نظر ایجاد و ویرایش چند رسانه ای دارد. ادغام یکپارچه هوش مصنوعی قطعا یک امتیاز است.
در پایان روز، نمیتوانستم احساس کنم که مجموعه ابزار از من پیشی گرفته است. تلاشهای پیش پا افتاده من برای ایجاد یک کلیپ ویدیویی هوش مصنوعی به سختی سطح کاری را که Runway میتوانست انجام دهد، نشان میداد. بله، درست مانند فراری که می تواند به شما در خرید از Walmart کمک کند، هوش مصنوعی نیز می تواند وظایف ویرایش تصویر و ویدئو را انجام دهد. اما برای سازندگان ویدیوی حرفهای که باید خارج از چارچوب فکر کنند و استعدادهای خود را در بالاترین سطح به نمایش بگذارند، من در اینجا چیز کمی میبینم که با ابزارهای Runway Gen X رقابت کند.
منبع: tomsguide
نظرات کاربران