Google DeepMind مدل هوش مصنوعی ایجاد می کند که می تواند صدا را به ویدیوهای بی صدا اضافه کند

پروین میرمیران19 ژوئن 2024آخرین به روز رسانی: 19 ژوئن 2024

0 2,661 خواندن این مطلب 3 دقیقه زمان میبرد

هوش مصنوعی که در چند روز گذشته به تازگی از ایجاد میم های متحرک متوقف شده بود، توجه خود را به ویدیوهای بی صدا معطوف کرد. به خصوص برای آوردن صدا به کلیپ های ایجاد شده توسط هوش مصنوعی.

بازوی تحقیقاتی DeepMind گوگل یک مدل هوش مصنوعی جدید و قدرتمند را توسعه داده است که می تواند صدا را بدون صدا به ویدیوها اضافه کند و دوبله های سطح بالا را با جلوه های صوتی و موسیقی انجام دهد.

چشمگیرترین جنبه تحقیق جدید توانایی آن در ردیابی دقیق تصاویر است. یکی از کلیپ‌ها نمای نزدیک از نواختن گیتار را نشان می‌دهد و موسیقی موجود در SFX با نت‌های واقعی در حال پخش مطابقت دارد.

از برخی جهات، این روی دیگر سکه است که ماه گذشته شاهد تولید موسیقی هدایت‌شده بصری از طریق ElevenLabs بودیم که پتانسیل زیادی برای بازیابی رسانه‌های قدیمی‌تر که دیگر جزء صوتی ندارند، به ارمغان آورد. اگر این بیشتر پیش برود، در آستانه دریافت صدای جدیدی هستیم.

در حالی که مدل Google DeepMind هنوز در دسترس نیست، ElevenLabs ابزار مشابهی دارد که می توانید امروز آن را امتحان کنید. اگر می‌خواهید ویدیویی برای امتحان ایجاد کنید، می‌توانید فهرست ما را از 5 بهترین سازندگان ویدیوی هوش مصنوعی بررسی کنید.

نسل جدید صدای گوگل شروع خوبی دارد

در مجموعه پست‌های X، حساب DeepMind Google با یک شخصیت در حال قدم زدن در یک تونل وهم‌آور روشن می‌شود.

موسیقی سبک کرال و همچنین ضرب‌های دراماتیک شنیده می‌شود، زیرا صدای قدم‌های شخصیت در حال حرکت در صحنه شنیده می‌شود.

صدای دوم که با “زوزه گرگ در ماه” به عنوان پیام ایجاد شده است، به خوبی با انیمیشن مرتبط است و حتی دارای یک گروه کر از زوزه های دور است.

ما پیشرفت در فناوری تولیدی ویدیو به صدا (V2A) خود را به اشتراک می گذاریم. 🎥می تواند صدا را به کلیپ های بی صدا مناسب برای آکوستیک صحنه، همراه با اکشن روی صفحه و موارد دیگر اضافه کند. در اینجا 4 مثال وجود دارد – صدا را افزایش دهید. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye6217 ژوئن 2024

صدای هارمونیکا به دلیل تغییر در گام، کمی بیش از حد “دره غیرعادی” به نظر می رسد، اما تکیه گاه زیرین محکم است، در حالی که نمونه چتر دریایی شبیه چتر دریایی است. برخی از دستورات اضافی وجود دارد، به ویژه “زندگی دریا” و “اقیانوس”.

با این حال، این ویدئو کمی نادرست است زیرا می گوید: “یک درامر روی صحنه در یک کنسرت احاطه شده توسط چراغ های چشمک زن و جمعیتی که تشویق می کنند.” اولاً، هنگامی که ویدیو شروع می‌شود، ضرب‌ها دقیقاً با آهنگ ویدیو مطابقت ندارند، به نظر می‌رسد میله‌ها بر روی درام و شاید کف تام متمرکز شده‌اند، در حالی که صدا کمی پیچیده‌تر به نظر می‌رسد و برخی درام‌های دیگر در آن گنجانده شده‌اند. خوب.

با این حال، این یک شروع چشمگیر برای پروژه ای است که احتمالاً در طول زمان رشد می کند.

محدودیت های مدل DeepMind

مانند بسیاری از پروژه های گوگل، این پروژه نیز هنوز منتشر نشده است، فقط یک پیش نمایش تحقیقاتی است. گوگل می گوید محدودیت ها و مسائل امنیتی وجود دارد که ابتدا باید به آنها رسیدگی شود.

به عنوان مثال: “از آنجایی که کیفیت خروجی صدا به کیفیت ورودی ویدئو بستگی دارد، مصنوعات یا اعوجاج های موجود در ویدئو که خارج از توزیع آموزشی مدل هستند، می توانند منجر به کاهش قابل توجه کیفیت صدا شوند.”

آنها همچنین روی همگام سازی لب برای ویدیوهایی که حاوی گفتار هستند کار می کنند، زیرا اگرچه در حال حاضر سعی می کنند این کار را انجام دهند، اما همیشه دقیق نیست و جلوه دره ای غیرعادی ایجاد می کند.

ElevenLabs روی پروژه مشابهی کار می کند

ما برای معرفی Text to Audio Effects API هیجان‌زده هستیم. برای نشان دادن این موضوع، اولین برنامه جلوه‌های صوتی به ویدیو را توسعه دادیم. این اپلیکیشن به صورت آنلاین و کاملا متن باز در دسترس است. pic.twitter.com/8aalo8GCSo17 ژوئن 2024

به همین دلیل است که ElevenLabs این هفته API جدید Text-to-Sound Effects خود را معرفی کرد که می تواند جلوه های صوتی را بر اساس آنچه بارگذاری می کنید ایجاد کند.

برخلاف مدل V2A گوگل، API ElevenLabs در حال حاضر در دسترس است و آزمایش‌ها به طرز شگفت‌آوری خوب کار می‌کنند.

در مثال بالا، چندین گزینه مختلف برای انتخاب در ویدیوی شکستن بطری وجود دارد، در حالی که میم خندان دی کاپریو صدای اضافی را از افراد دیگر در اتاق دریافت می کند.

برای نشان دادن آنچه با API امکان پذیر است، این شرکت یک برنامه سریع را بوت استرپ کرده است که به شما امکان می دهد یک ویدیو آپلود کنید و صدا را اضافه کنید. استفاده از آن رایگان و منبع باز است و می توانید فوراً آن را امتحان کنید.

ElevenLabs به Tom's Guide گفت که هدف اصلی این است که شرکت‌ها و توسعه‌دهندگان را قادر به ساختن چیزهایی با استفاده از API خود کنند، مانند ادغام در ویدیوی تولیدی.