من دموی جدید ElevenLabs Video to Audio Effects را امتحان کردم – و بسیار شگفت انگیز است
Eleven Labs بار دیگر به این امر دست یافته است. پیشگام با کیفیت ترین صدای تولید شده توسط هوش مصنوعی و صدای SFX، API جدید جلوه های متن به صدا خود را معرفی کرده است.
برای جشن گرفتن این مناسبت، این شرکت همچنین یک نسخه ی نمایشی متن باز بسیار جالب به نام جلوه های صوتی به تصویر منتشر کرد تا نشان دهد که این فناوری چه کاری می تواند انجام دهد. در دسترس آنلاین و Githubو بسیار عالی است
ویدیویی را که ایجاد کردهاید بگیرید، آن را در صفحه وب نمایشی ElevenLabs آپلود کنید و منتظر بمانید تا پلتفرم ویدیو را تجزیه و تحلیل کند و آهنگهای صوتی را با چهار جلوه صوتی مختلف برای انتخاب بازگرداند.
نسخه مورد نظر خود را انتخاب کنید و دکمه دانلود را بزنید تا کلیپ ویدیویی همراه با صدای جدید دریافت شود. فوق العاده ساده کل فرآیند از آپلود یک کلیپ 5 ثانیه ای تقریباً 5 دقیقه طول می کشد.
این حوزه جدیدی از هوش مصنوعی است که به عنوان ویدئو به صدا (V2A) شناخته می شود. گوگل اخیرا یک پروژه تحقیقاتی را اعلام کرده است که نوید فناوری مشابه را می دهد، اما این پروژه هنوز آزمایش نشده است.
آزمایش Eleven Labs
من با استفاده از Luna Dream Machine (LDM) به عنوان ابزار ایجاد ویدیو آزمایش کردم. من پنج فرمان ویدیویی مختلف را با نتایج متفاوت امتحان کردم، اما هی، این روزهای اولیه است. به هر حال بالاخره موفق شدم کلیپی از یک گوریل سوار بر موتور سیکلت هارلی دیویسون بگیرم و آن را در صفحه نمایشی ElevenLabs آپلود کردم.
من چهار نمونه صدا برای تست در حدود 20 ثانیه داشتم، یکی را انتخاب کردم و دانلود را شروع کردم. باید بگویم که علیرغم برخی تکرارهای مبهم، نتیجه نهایی در واقع بسیار عالی است. این ویدیو خنده دار است و صدا ابعاد جدیدی به آن می دهد.
این فناوری با نمونه برداری از 4 فریم در فواصل زمانی 1 ثانیه ای از ویدیوی آپلود شده ارسال شده به ChatGPT-4o برای ایجاد یک پیام سفارشی افکت تبدیل متن به گفتار کار می کند.
سپس درخواست به ElevenLabs API برای تولید SFX نهایی ارسال می شود. خام اما شگفت آور موثر. نتایج هرگز برنده جایزه اسکار یا حلقههای طلایی نمیشوند، اما به خوبی به عنوان راهی سریع و کثیف برای دمیدن بخشی از زندگی در یک کلیپ ویدیویی خستهکننده تولید شده توسط هوش مصنوعی عمل میکند.
ما برای معرفی Text to Audio Effects API هیجانزده هستیم. برای نشان دادن این موضوع، اولین برنامه جلوههای صوتی به ویدیو را توسعه دادیم. این اپلیکیشن به صورت آنلاین و کاملا متن باز در دسترس است. pic.twitter.com/8aalo8GCSo17 ژوئن 2024
در حالی که نسخه ی نمایشی به وضوح برای عموم مردم هدف قرار می گیرد، API جدید با هدف استفاده جدی تجاری است.
این شرکت نه تنها جلوه های صوتی را با این فناوری، بلکه نمونه های درخواستی را برای تولید موسیقی و صدای پویا برای بازی های ویدیویی نیز هدف قرار داده است.
برای استقرار API، مشتریان به یک حساب ElevenLabs با یک کلید API نیاز دارند و هر نسل 100 کاراکتر یا 25 کاراکتر در ثانیه برای دورههای زمانی مشخص هزینه خواهد داشت.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide