با Fugatto، مدل جدید و چشمگیر صوتی هوش مصنوعی انویدیا آشنا شوید

پروین میرمیران26 نوامبر 2024آخرین به روز رسانی: 26 نوامبر 2024

0 2,662 خواندن این مطلب 2 دقیقه زمان میبرد

با Fugatto، مدل جدید و چشمگیر صوتی هوش مصنوعی انویدیا آشنا شوید

غول گرافیک و هوش مصنوعی NVIDIA مدل جدیدی از هوش مصنوعی به نام Fugatto (مخفف Foundational Generative Audio Transformer Opus 1) را معرفی کرد. این توسط یک تیم بین المللی از محققان توسعه یافته است. این دستگاه به‌عنوان «انعطاف‌پذیرترین دستگاه صوتی جهان» نام‌گذاری می‌شود که با یک ضربه، ElevenLabs و تولیدکننده موسیقی هوش مصنوعی Suno را شکست داد.

با این مدل، شاهد الگوی کاملاً جدیدی در نحوه دستکاری و تبدیل صدا و صدا توسط هوش مصنوعی هستیم. این بسیار فراتر از تبدیل متن به گفتار یا تولید موسیقی از دستورات متنی است و برخی از ویژگی های واقعاً خلاقانه ای را ارائه می دهد که قبلاً ندیده ایم.

Fugatto در حال حاضر برای آزمایش در دسترس نیست زیرا فقط یک مقاله تحقیقاتی است، اما در آینده در اختیار یک یا چند شریک Nvidia قرار خواهد گرفت و سپس شاهد تغییرات قابل توجهی در نحوه توسعه صدا خواهیم بود.

Nvidia Fugatto چگونه کار می کند؟

🎵 ✨انعطاف پذیرترین دستگاه صدا در جهان؟ این مدل جدید #تولیدکننده هوش مصنوعی به نام Fugatto می‌تواند هر ترکیبی از موسیقی، صدا و صدا را با ورودی‌های متن و صدا ایجاد کند. … pic.twitter.com/0IlYboF9JZ25 نوامبر 2024

کلید Nvidia Fugatto توانایی آن در نمایش قابلیت های نوظهور است که تیم ComposableART آن را می نامد. این بدان معناست که با ترکیب مهارت های مختلف به روش های جدید، می تواند کارهایی را انجام دهد که برای آنها آموزش ندیده است.

نویسندگان مقاله تحقیقاتی پرتاب توضیح می‌دهند که چگونه این مدل می‌تواند یک ویولن سل که با عصبانیت فریاد می‌زند یا یک ساکسیفون پارس تولید کند. ممکن است مضحک به نظر برسد، اما برخی از نمایشگرهایی که در صفحه اصلی پروژه دیده می شوند بسیار چشمگیر هستند.

به عنوان مثال، توانایی تبدیل فوری گفتار به لهجه‌ها و شدت احساسی متفاوت، یا افزودن و حذف یکپارچه سازها از اجرای موسیقی موجود.

ما برخی از این موارد را در مدل‌های دیگر، مانند صدای پیشرفته OpenAI، مدل ElevenLabs SFX، یا آزمایش MusicFX گوگل دیده‌ایم، اما نه در یک مدل.

Nvidia Fugatto برای چه مواردی می تواند استفاده شود؟

Audio AI Fugatto صدا را از متن تولید می کند | تحقیقات انویدیا – یوتیوب

تماشا کنید

یکی از برجسته‌ترین نمونه‌های ارائه شده توسط تیم، تولید فوری جلوه‌های صوتی پیچیده است که برخی از آنها کاملاً جدید یا عجیب هستند.

توسعه‌دهندگان بازی‌های ویدیویی و کسانی که در صنعت فیلم هستند، از این خبر که تقریباً هر محیط صوتی به زودی با فشار دادن یک دکمه توسط هوش مصنوعی تولید می‌شود، آب دهان می‌ریزد یا عرق می‌ریزد.

تمام این فناوری توسط مدلی تامین می شود که، درست حدس زدید، 2.5 میلیارد پارامتر دارد و بر روی چندین پردازنده کامپیوتری Nvidia آموزش دیده است.

مانند بسیاری از این تحقیقات اولیه، احتمالاً مدتی طول می کشد تا شاهد عرضه یک محصول کامل باشیم. ایجاد یک کلیپ صوتی چهار ثانیه ای از یک طوفان یا یک هیولای مکانیکی یک چیز است، اما قابل استفاده کردن آن در دنیای واقعی چیز دیگری است.

اما شکی نیست که فناوری پشت این مدل جدید نشان می دهد که پل قابل توجهی در توانایی ماشین برای تسلط بر هنر دیگری رد شده است. شاید این اولین بار باشد که قدرت بین نسلی هوش مصنوعی را در این سبک می بینیم، اما مطمئنا آخرین بار نخواهد بود.