با Fugatto، مدل جدید و چشمگیر صوتی هوش مصنوعی انویدیا آشنا شوید
غول گرافیک و هوش مصنوعی NVIDIA مدل جدیدی از هوش مصنوعی به نام Fugatto (مخفف Foundational Generative Audio Transformer Opus 1) را معرفی کرد. این توسط یک تیم بین المللی از محققان توسعه یافته است. این دستگاه بهعنوان «انعطافپذیرترین دستگاه صوتی جهان» نامگذاری میشود که با یک ضربه، ElevenLabs و تولیدکننده موسیقی هوش مصنوعی Suno را شکست داد.
با این مدل، شاهد الگوی کاملاً جدیدی در نحوه دستکاری و تبدیل صدا و صدا توسط هوش مصنوعی هستیم. این بسیار فراتر از تبدیل متن به گفتار یا تولید موسیقی از دستورات متنی است و برخی از ویژگی های واقعاً خلاقانه ای را ارائه می دهد که قبلاً ندیده ایم.
Fugatto در حال حاضر برای آزمایش در دسترس نیست زیرا فقط یک مقاله تحقیقاتی است، اما در آینده در اختیار یک یا چند شریک Nvidia قرار خواهد گرفت و سپس شاهد تغییرات قابل توجهی در نحوه توسعه صدا خواهیم بود.
Nvidia Fugatto چگونه کار می کند؟
🎵 ✨انعطاف پذیرترین دستگاه صدا در جهان؟ این مدل جدید #تولیدکننده هوش مصنوعی به نام Fugatto میتواند هر ترکیبی از موسیقی، صدا و صدا را با ورودیهای متن و صدا ایجاد کند. … pic.twitter.com/0IlYboF9JZ25 نوامبر 2024
کلید Nvidia Fugatto توانایی آن در نمایش قابلیت های نوظهور است که تیم ComposableART آن را می نامد. این بدان معناست که با ترکیب مهارت های مختلف به روش های جدید، می تواند کارهایی را انجام دهد که برای آنها آموزش ندیده است.
نویسندگان مقاله تحقیقاتی پرتاب توضیح میدهند که چگونه این مدل میتواند یک ویولن سل که با عصبانیت فریاد میزند یا یک ساکسیفون پارس تولید کند. ممکن است مضحک به نظر برسد، اما برخی از نمایشگرهایی که در صفحه اصلی پروژه دیده می شوند بسیار چشمگیر هستند.
به عنوان مثال، توانایی تبدیل فوری گفتار به لهجهها و شدت احساسی متفاوت، یا افزودن و حذف یکپارچه سازها از اجرای موسیقی موجود.
ما برخی از این موارد را در مدلهای دیگر، مانند صدای پیشرفته OpenAI، مدل ElevenLabs SFX، یا آزمایش MusicFX گوگل دیدهایم، اما نه در یک مدل.
Nvidia Fugatto برای چه مواردی می تواند استفاده شود؟
تماشا کنید
یکی از برجستهترین نمونههای ارائه شده توسط تیم، تولید فوری جلوههای صوتی پیچیده است که برخی از آنها کاملاً جدید یا عجیب هستند.
توسعهدهندگان بازیهای ویدیویی و کسانی که در صنعت فیلم هستند، از این خبر که تقریباً هر محیط صوتی به زودی با فشار دادن یک دکمه توسط هوش مصنوعی تولید میشود، آب دهان میریزد یا عرق میریزد.
تمام این فناوری توسط مدلی تامین می شود که، درست حدس زدید، 2.5 میلیارد پارامتر دارد و بر روی چندین پردازنده کامپیوتری Nvidia آموزش دیده است.
مانند بسیاری از این تحقیقات اولیه، احتمالاً مدتی طول می کشد تا شاهد عرضه یک محصول کامل باشیم. ایجاد یک کلیپ صوتی چهار ثانیه ای از یک طوفان یا یک هیولای مکانیکی یک چیز است، اما قابل استفاده کردن آن در دنیای واقعی چیز دیگری است.
اما شکی نیست که فناوری پشت این مدل جدید نشان می دهد که پل قابل توجهی در توانایی ماشین برای تسلط بر هنر دیگری رد شده است. شاید این اولین بار باشد که قدرت بین نسلی هوش مصنوعی را در این سبک می بینیم، اما مطمئنا آخرین بار نخواهد بود.