Google DeepMind مدل هوش مصنوعی ایجاد می کند که می تواند صدا را به ویدیوهای بی صدا اضافه کند
هوش مصنوعی که در چند روز گذشته به تازگی از ایجاد میم های متحرک متوقف شده بود، توجه خود را به ویدیوهای بی صدا معطوف کرد. به خصوص برای آوردن صدا به کلیپ های ایجاد شده توسط هوش مصنوعی.
بازوی تحقیقاتی DeepMind گوگل یک مدل هوش مصنوعی جدید و قدرتمند را توسعه داده است که می تواند صدا را بدون صدا به ویدیوها اضافه کند و دوبله های سطح بالا را با جلوه های صوتی و موسیقی انجام دهد.
چشمگیرترین جنبه تحقیق جدید توانایی آن در ردیابی دقیق تصاویر است. یکی از کلیپها نمای نزدیک از نواختن گیتار را نشان میدهد و موسیقی موجود در SFX با نتهای واقعی در حال پخش مطابقت دارد.
از برخی جهات، این روی دیگر سکه است که ماه گذشته شاهد تولید موسیقی هدایتشده بصری از طریق ElevenLabs بودیم که پتانسیل زیادی برای بازیابی رسانههای قدیمیتر که دیگر جزء صوتی ندارند، به ارمغان آورد. اگر این بیشتر پیش برود، در آستانه دریافت صدای جدیدی هستیم.
در حالی که مدل Google DeepMind هنوز در دسترس نیست، ElevenLabs ابزار مشابهی دارد که می توانید امروز آن را امتحان کنید. اگر میخواهید ویدیویی برای امتحان ایجاد کنید، میتوانید فهرست ما را از 5 بهترین سازندگان ویدیوی هوش مصنوعی بررسی کنید.
نسل جدید صدای گوگل شروع خوبی دارد
در مجموعه پستهای X، حساب DeepMind Google با یک شخصیت در حال قدم زدن در یک تونل وهمآور روشن میشود.
موسیقی سبک کرال و همچنین ضربهای دراماتیک شنیده میشود، زیرا صدای قدمهای شخصیت در حال حرکت در صحنه شنیده میشود.
صدای دوم که با “زوزه گرگ در ماه” به عنوان پیام ایجاد شده است، به خوبی با انیمیشن مرتبط است و حتی دارای یک گروه کر از زوزه های دور است.
ما پیشرفت در فناوری تولیدی ویدیو به صدا (V2A) خود را به اشتراک می گذاریم. 🎥می تواند صدا را به کلیپ های بی صدا مناسب برای آکوستیک صحنه، همراه با اکشن روی صفحه و موارد دیگر اضافه کند. در اینجا 4 مثال وجود دارد – صدا را افزایش دهید. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye6217 ژوئن 2024
صدای هارمونیکا به دلیل تغییر در گام، کمی بیش از حد “دره غیرعادی” به نظر می رسد، اما تکیه گاه زیرین محکم است، در حالی که نمونه چتر دریایی شبیه چتر دریایی است. برخی از دستورات اضافی وجود دارد، به ویژه “زندگی دریا” و “اقیانوس”.
با این حال، این ویدئو کمی نادرست است زیرا می گوید: “یک درامر روی صحنه در یک کنسرت احاطه شده توسط چراغ های چشمک زن و جمعیتی که تشویق می کنند.” اولاً، هنگامی که ویدیو شروع میشود، ضربها دقیقاً با آهنگ ویدیو مطابقت ندارند، به نظر میرسد میلهها بر روی درام و شاید کف تام متمرکز شدهاند، در حالی که صدا کمی پیچیدهتر به نظر میرسد و برخی درامهای دیگر در آن گنجانده شدهاند. خوب.
با این حال، این یک شروع چشمگیر برای پروژه ای است که احتمالاً در طول زمان رشد می کند.
محدودیت های مدل DeepMind
مانند بسیاری از پروژه های گوگل، این پروژه نیز هنوز منتشر نشده است، فقط یک پیش نمایش تحقیقاتی است. گوگل می گوید محدودیت ها و مسائل امنیتی وجود دارد که ابتدا باید به آنها رسیدگی شود.
به عنوان مثال: “از آنجایی که کیفیت خروجی صدا به کیفیت ورودی ویدئو بستگی دارد، مصنوعات یا اعوجاج های موجود در ویدئو که خارج از توزیع آموزشی مدل هستند، می توانند منجر به کاهش قابل توجه کیفیت صدا شوند.”
آنها همچنین روی همگام سازی لب برای ویدیوهایی که حاوی گفتار هستند کار می کنند، زیرا اگرچه در حال حاضر سعی می کنند این کار را انجام دهند، اما همیشه دقیق نیست و جلوه دره ای غیرعادی ایجاد می کند.
ElevenLabs روی پروژه مشابهی کار می کند
ما برای معرفی Text to Audio Effects API هیجانزده هستیم. برای نشان دادن این موضوع، اولین برنامه جلوههای صوتی به ویدیو را توسعه دادیم. این اپلیکیشن به صورت آنلاین و کاملا متن باز در دسترس است. pic.twitter.com/8aalo8GCSo17 ژوئن 2024
به همین دلیل است که ElevenLabs این هفته API جدید Text-to-Sound Effects خود را معرفی کرد که می تواند جلوه های صوتی را بر اساس آنچه بارگذاری می کنید ایجاد کند.
برخلاف مدل V2A گوگل، API ElevenLabs در حال حاضر در دسترس است و آزمایشها به طرز شگفتآوری خوب کار میکنند.
در مثال بالا، چندین گزینه مختلف برای انتخاب در ویدیوی شکستن بطری وجود دارد، در حالی که میم خندان دی کاپریو صدای اضافی را از افراد دیگر در اتاق دریافت می کند.
برای نشان دادن آنچه با API امکان پذیر است، این شرکت یک برنامه سریع را بوت استرپ کرده است که به شما امکان می دهد یک ویدیو آپلود کنید و صدا را اضافه کنید. استفاده از آن رایگان و منبع باز است و می توانید فوراً آن را امتحان کنید.
ElevenLabs به Tom's Guide گفت که هدف اصلی این است که شرکتها و توسعهدهندگان را قادر به ساختن چیزهایی با استفاده از API خود کنند، مانند ادغام در ویدیوی تولیدی.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide