هدرا اکنون به شما اجازه می دهد صدای خود را شبیه سازی کنید. این روش کار می کند
شخصیتساز محبوب هوش مصنوعی، هدرا، یک ویژگی جدید شبیهسازی صدا را اعلام کرده است. اکنون می توانید یک کلیپ کوتاه از صدای خود را کپی کنید، آن را ذخیره کرده و برای هر شخصیتی که ایجاد می کنید یا در پلتفرم آپلود می کنید استفاده کنید.
ابزار جدید فقط برای مشترکین پولی در دسترس است، بنابراین برای استفاده از آن باید حداقل 10 دلار در ماه هزینه کنید، اما باید بگویم که اگر به آن نیاز دارید ارزشش را دارد.
یکی از بهترین چیزهای هدرا این است که استفاده از آن لذت بخش است. در چالش همگام سازی لب ما از Runway و Kling برتری داشت و به طور مداوم حرکات دقیق دهان را ایجاد می کند.
شبیه سازی صدای Hedra چگونه کار می کند؟
ثبت نام کنید، وارد شوید و به صفحه ایجاد بروید که در آن سه پنل اصلی را خواهید یافت. اولی به متن و صدایی که می خواهید استفاده کنید می پردازد، دومی تصویر را کنترل می کند و آخرین پانل برای خروجی زمانی است که این دو با هم ترکیب شوند. تا اینجا خیلی شیرینه
اولین وظیفه کلونرهای صوتی این است که روی دکمه New Voice در پنل اول کلیک کرده و صدای خود را در جعبه صدای کلون ذخیره کنید. سه خط متنی که استفاده می کنید برای پلتفرم کافی است تا کلون شما را ایجاد کند و در واقع بسیار دقیق است.
البته در این مرحله می توانید به جای استفاده از کلون صوتی خود یک اسکریپت صوتی را بارگذاری کنید یا به صورت زنده ضبط کنید یا یکی از صداهای آماده را انتخاب کنید.
هنگامی که صدا رمزگشایی شد، زمان بارگیری یا ایجاد یک تصویر کاراکتر فرا می رسد. مهمترین نکته در این مرحله این است که مولد تصویر را امتحان کنید زیرا بسیار خوب است.
مدل پایه استفاده شده StableDiffusion است، اما اگر می خواهید شخصیت های واقع گرایانه شگفت انگیزی داشته باشید، به طرح برتر ارتقا یافته و تنظیمات Flux Realism را انتخاب می کنید.
نتایج بسیار عالی هستند و تشخیص آن از چهره واقعی انسان دشوار است، اگرچه وضوح تصویر در وضوح تصویر کمی وجود دارد. با این حال، حرکات لب و صورت عالی هستند.
هدرا چقدر خوب کار می کند؟
من در حال حاضر از استفاده از شخصیت های حیوانی اجتناب می کنم زیرا همگام سازی لب به طرز شگفت انگیزی با شکست مواجه می شود. من یک شیر و یک پاندا را امتحان کردم، و در هر دو سر تکان خورد و لب ها اصلا حرکت نکردند. شرمنده
طرح اولیه حق بیمه اجازه می دهد تا 20 دقیقه ویدیو در ماه، ویدیوهای حداکثر 1 دقیقه، و عملکرد شبیه سازی صدا بدون واترمارک.
این قیمت معقول به نظر می رسد، اما خوب است اگر این شرکت حداقل یک عملکرد شبیه سازی صوتی مختصر را در طرح واترمارک رایگان خود ارائه دهد. اما این یک بحث جزئی است.
من همچنین هنوز در تلاش برای یافتن یک مورد استفاده واقعاً قانعکننده برای این ابزارهای آواتار ویدیویی در خارج از مبانی تبلیغاتی جذاب هستم، اما شاید بازار داستانسرایی، موسیقی و بازیهای حرفهای افزایش یابد و ثابت کند که اشتباه میکنم.
در کل به نظر می رسد با افزایش قدرت مدل ها، کیفیت و محبوبیت این نوع عملکرد کلون نیز افزایش می یابد. حتی Runway با Act-1 وارد این منطقه می شود، جایی که چهره خود شما حرکت شخصیت را کنترل می کند.
چه به دنبال ایجاد شخصیتهای تجاری بیشتر با ابزارهایی مانند HeyGen یا شخصیتهای سرگرمکنندهتر با Hedra باشید، داشتن گزینههای ابزار متنوع برای همه جنبههای فرآیند آواتار هوش مصنوعی عالی است.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide