من دموی جدید ElevenLabs Video to Audio Effects را امتحان کردم – و بسیار شگفت انگیز است

پروین میرمیران20 ژوئن 2024آخرین به روز رسانی: 20 ژوئن 2024

0 2,659 خواندن این مطلب 2 دقیقه زمان میبرد

Eleven Labs بار دیگر به این امر دست یافته است. پیشگام با کیفیت ترین صدای تولید شده توسط هوش مصنوعی و صدای SFX، API جدید جلوه های متن به صدا خود را معرفی کرده است.

برای جشن گرفتن این مناسبت، این شرکت همچنین یک نسخه ی نمایشی متن باز بسیار جالب به نام جلوه های صوتی به تصویر منتشر کرد تا نشان دهد که این فناوری چه کاری می تواند انجام دهد. در دسترس آنلاین و Githubو بسیار عالی است

ویدیویی را که ایجاد کرده‌اید بگیرید، آن را در صفحه وب نمایشی ElevenLabs آپلود کنید و منتظر بمانید تا پلتفرم ویدیو را تجزیه و تحلیل کند و آهنگ‌های صوتی را با چهار جلوه صوتی مختلف برای انتخاب بازگرداند.

نسخه مورد نظر خود را انتخاب کنید و دکمه دانلود را بزنید تا کلیپ ویدیویی همراه با صدای جدید دریافت شود. فوق العاده ساده کل فرآیند از آپلود یک کلیپ 5 ثانیه ای تقریباً 5 دقیقه طول می کشد.

این حوزه جدیدی از هوش مصنوعی است که به عنوان ویدئو به صدا (V2A) شناخته می شود. گوگل اخیرا یک پروژه تحقیقاتی را اعلام کرده است که نوید فناوری مشابه را می دهد، اما این پروژه هنوز آزمایش نشده است.

آزمایش Eleven Labs

من با استفاده از Luna Dream Machine (LDM) به عنوان ابزار ایجاد ویدیو آزمایش کردم. من پنج فرمان ویدیویی مختلف را با نتایج متفاوت امتحان کردم، اما هی، این روزهای اولیه است. به هر حال بالاخره موفق شدم کلیپی از یک گوریل سوار بر موتور سیکلت هارلی دیویسون بگیرم و آن را در صفحه نمایشی ElevenLabs آپلود کردم.

این شرکت نه تنها جلوه های صوتی را با این فناوری، بلکه نمونه های درخواستی را برای تولید موسیقی و صدای پویا برای بازی های ویدیویی نیز هدف قرار داده است.

من چهار نمونه صدا برای تست در حدود 20 ثانیه داشتم، یکی را انتخاب کردم و دانلود را شروع کردم. باید بگویم که علیرغم برخی تکرارهای مبهم، نتیجه نهایی در واقع بسیار عالی است. این ویدیو خنده دار است و صدا ابعاد جدیدی به آن می دهد.

این فناوری با نمونه برداری از 4 فریم در فواصل زمانی 1 ثانیه ای از ویدیوی آپلود شده ارسال شده به ChatGPT-4o برای ایجاد یک پیام سفارشی افکت تبدیل متن به گفتار کار می کند.

سپس درخواست به ElevenLabs API برای تولید SFX نهایی ارسال می شود. خام اما شگفت آور موثر. نتایج هرگز برنده جایزه اسکار یا حلقه‌های طلایی نمی‌شوند، اما به خوبی به عنوان راهی سریع و کثیف برای دمیدن بخشی از زندگی در یک کلیپ ویدیویی خسته‌کننده تولید شده توسط هوش مصنوعی عمل می‌کند.

ما برای معرفی Text to Audio Effects API هیجان‌زده هستیم. برای نشان دادن این موضوع، اولین برنامه جلوه‌های صوتی به ویدیو را توسعه دادیم. این اپلیکیشن به صورت آنلاین و کاملا متن باز در دسترس است. pic.twitter.com/8aalo8GCSo17 ژوئن 2024

در حالی که نسخه ی نمایشی به وضوح برای عموم مردم هدف قرار می گیرد، API جدید با هدف استفاده جدی تجاری است.

این شرکت نه تنها جلوه های صوتی را با این فناوری، بلکه نمونه های درخواستی را برای تولید موسیقی و صدای پویا برای بازی های ویدیویی نیز هدف قرار داده است.

برای استقرار API، مشتریان به یک حساب ElevenLabs با یک کلید API نیاز دارند و هر نسل 100 کاراکتر یا 25 کاراکتر در ثانیه برای دوره‌های زمانی مشخص هزینه خواهد داشت.