من با دستیار صوتی هوش مصنوعی جدید هیوم صحبت کردم و فراموش کردم که انسان نیست
Hume EVI یک دستیار صوتی گفتار به گفتار مجهز به هوش مصنوعی است و با آخرین نسخه به روز رسانی آن، ممکن است طبیعی تر و شهودی تر از صدای پیشرفته GPT-4o OpenAI باشد.
کار بنیانگذار هیوم، آلن کوون و تیمش، EVI 2 بر اساس مدل نسل قبلی با صدای طبیعی تر و درک احساسی بهتر ساخته شده است.
به گفته هیوم: «EVI 2 میتواند به سرعت با کاربران با زمان پاسخدهی زیر ثانیه چت کند، لحن صدای کاربر را بفهمد، هر گونه انحراف صوتی را ایجاد کند، و حتی به درخواستهای محدودتر مانند تغییر نرخ صحبت یا رپ پاسخ دهد.»
آزمایش من آن را طبیعی تر از OpenAI’s Enhanced Audio نشان داد، اما کمی کندتر است و قابلیت کمتری دارد. به عنوان مثال، EVI در لحن صدا همدل تر است، اما ChatGPT در خندیدن و انتقال صداهای مرتبط با صدای انسان بهتر است.
Hume EVI 2 چیست؟
EVI 2 یک دستیار صوتی همدلانه است که به عنوان یک برنامه اختصاصی تلفن هوشمند، برنامه آنلاین یا به عنوان یک API در دسترس است که توسعه دهندگان می توانند در پروژه های خود مانند ChatGPT Voice یا Gemini Live از آن استفاده کنند.
Hume’s EVI 2 به دلیل انعطاف پذیری که دارد از بین دیگر متمایز است. گفتار به گفتار به صورت بومی و مغز LLM خود را دارد، اما می توانید آن را با هر مدلی، از جمله GPT-4o یا Gemini جایگزین کنید. حتی می توانید از EVI برای صداگذاری Grok یا Meta’s Llama 3.1 استفاده کنید.
قبل از انتشار EVI 2، Dr. من با Cowen صحبت کردم و او به من گفت که هدف این است که “به توسعه دهندگان ابزاری بدهم تا آنچه را که می خواهند بسازند” و توضیح داد که سایر بازیکنان در فضا در حال ساختن اکوسیستم ها در اطراف خود هستند. ما آنها را بر روی مدلهای منبع باز آموزش میدهیم تا به آنها صدایی بدهیم.»
وی افزود: «توسعهدهنده میتواند از این مدل استفاده کند و از هر چارچوبی که میخواهد استفاده کند، ما همچنین مدولاسیون صدا و صداهای شخصیتی را فعال میکنیم.» او همچنین گفت که در آینده ممکن است نسخه کوچکتری از این مدل وجود داشته باشد که بتواند روی لبه، لپتاپ یا حتی بلندگوی هوشمند اجرا شود.
جدا از API و ابزارهای توسعه دهنده، برنامه هوش مصنوعی Hume یک تجربه چشمگیر ارائه می دهد. به شما این امکان را می دهد که با صدایی با صدای هوش مصنوعی صحبت کنید، طوفان فکری کنید و حتی نظر خود را بیان کنید. این لحن لحن صدای شما را تشخیص می دهد و متناسب با آن واکنش نشان می دهد.
دکتر Cowen به Tom’s Guide گفت: «ما در حال ساختن سیستمهایی هستیم که میتوانند به طور خودکار صدا را با کاربر تطبیق دهند، مانند لهجه مناسب، اتخاذ یک شخصیت آرام یا رسمیتر، تا به شما در تعامل با هوش مصنوعی کمک کنند. او گفت.
علاوه بر استفاده از صداهای خاص توسعه یافته توسط Hume، EVI 2 می تواند صداها را شبیه سازی کند، اما این ویژگی محدود است. به جای شبیهسازی مستقیم صدای واقعی، کاربران میتوانند ویژگیهای صوتی مرتبط با هویت را برای ایجاد یک صدای سفارشی برای هر کاربر تنظیم کنند.
دکتر Cowen در مصاحبه ای قبل از عرضه مدل جدید به من گفت: “GPT-4o بر قابلیت های صیقلی تمرکز می کند، ما روی چیزهایی تمرکز می کنیم که توسعه دهنده واقعاً به آنها نیاز دارد، از جمله توانایی تعدیل صدا بدون شبیه سازی.”
رویکرد توسعه صوتی آنها مبتنی بر اسکریپت است، که در آن کاربران به سادگی نحوه پخش صدا را تایپ می کنند و هوش مصنوعی جهان را اداره می کند. او گفت: “ما با فرمان صوتی آمدیم و فقط می تواند از آن شخصیت پیروی کند.” همچنین می تواند زبان ها و لهجه های دیگر را تولید کند.
EVI 2 چقدر خوب کار می کند؟
EVI 2 می تواند به سرعت با کاربران با زمان پاسخ دهی زیر ثانیه چت کند، لحن صدای کاربر را بفهمد، هر لحن صدایی را تولید کند و حتی به درخواست های خاص مانند تغییر نرخ صحبت یا رپ پاسخ دهد. اینجا با او صحبت کنید: https://t.co/QR7oh775V311 سپتامبر 2024
من EVI 2 را با چندین صدا در وب سایت Hume AI امتحان کردم. من متوجه شدم که او صدای طبیعی چشمگیری دارد و می تواند صدایش را بسته به نحوه صحبت کردنم تطبیق دهد.
او همچنین داستان نویس خوبی است و می تواند عمق احساسی یک شخصیت را منتقل کند. در حالی که با شکلکهای احساسات ChatGPT Voice مطابقت دارد یا حتی از آن فراتر میرود، اما فاقد ویژگیهای مشترک در صدای انسان است، مانند صداهای تنفسی و نگه داشتن صداها. با این حال، من هنوز در طول یک مکالمه حواسم پرت شد، آنقدر که فراموش کنم که این یک انسان نبود.
برای سرگرمی، من همچنین چت EVI 2 را با ChatGPT Advanced Voice داشتم. من این را با تأثیر محدود روی سایر مدلهای هوش مصنوعی امتحان کردم، اما در اینجا به خوبی کار کرد. آنها مانند دوستان قدیمی شروع به گپ زدن کردند و در مورد دستور العمل ها و سرگرمی ها صحبت کردند.
آنچه EVI 2 را به یک گام مهم رو به جلو تبدیل می کند، قابلیت های آن نیست. رویکرد گسترده تر این شرکت است. میتوانید از ChatGPT در تلفن Android یا Advanced Voice در Gemini Live استفاده کنید، اما EVI را میتوان در هر نرمافزار یا دستگاهی ادغام کرد – بنابراین میتواند در هر جایی اتفاق بیفتد.
توانایی ردیابی پاسخهای احساسی از طریق لحن صدا نیز میتواند در صنعت مراقبت از طریق دادن رفتارهای کنار تخت به روباتهای پزشکی مفید باشد. یا میتواند جایگزین صدای خودکار در انتظار مکالمه شود، حتی اگر پنج میلیونمین نفر در صف باشید. این باید بهتر از دروغ “تماس شما برای ما مهم است” باشد.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide