متا Meta AI Voice را منتشر کرده است که یک گام فراتر از OpenAI در ارائه صدای افراد مشهور است. با این حال، در حالی که آشنایی با شنیدن جودی دنچ سرگرم کننده است، اما به اندازه صداهای طبیعی و واقعی که اخیراً به ChatGPT اضافه شده است، جذاب یا جذاب نیست.
اکنون نه گزینه Voice در برنامه ChatGPT وجود دارد که با صدای اولیه و پیشرفته کار می کنند. هرکدام دارای لحن، سبک و شخصیت متفاوتی هستند.
OpenAI زمینه جدیدی را در ایجاد صداهای فوق واقعی ایجاد کرده است. حتی صداهای شبیه انسان و صداهای تنفسی به صورت مکثی وجود دارد که برخی از موانع مصنوعی را که هنگام استفاده از سرویسهای صوتی دیگر مانند Gemini Live یا صدای جدید هوش مصنوعی متا با آن مواجه میشوید، از بین میبرد. اما اشاره ای جزئی به دره عجیب و غریب اضافه می کند، که گاهی اوقات “بیش از حد واقعی” به نظر می رسد.
چیزی که Meta AI و Gemini Live ندارند، قابلیت گفتار به گفتار است. این بدان معناست که تغییرات لحن، انحرافات و حتی لهجه و سرعت صحبت شما را تشخیص میدهد و اجازه میدهد گفتار طبیعیتر و شبیه انسان و وقفههای سریعتری داشته باشید.
صداهای جدید ChatGPT چگونه هستند؟
صدای Breeze، Cove، Ember و Juniper در اولین راهاندازی Voice در دسترس بودند و هنوز در دسترس هستند. ما از زمان مقایسه اسکارلت جوهانسن در اوایل سال جاری شاهد بازگشت اسکای نبودیم، اما پنج صدای دیگر وجود دارد، از جمله دو صدای با لهجه بریتانیایی.
Arbor لهجه ای بریتانیایی دارد و به گونه ای طراحی شده است که آرام و همه کاره باشد، Maple شاد و دوستانه است، سول درک و آرامش است، Spruce آرام و مؤید است، و Vale، همچنین بریتانیایی، روشن و کنجکاو است.
من شخصاً Arbor را دوست دارم زیرا این یکی است که بیشتر شبیه من است. مثل این است که دارم با دوستی صحبت می کنم که با او بزرگ شده ام، نه کسی که لهجه آمریکایی دارد. علاوه بر این، لحن آن طبیعی تر از صداهای نسل قبلی است. تنها شرکتی که به فناوری صوتی OpenAI نزدیک است ElevenLabs است.
یکی از ویژگی های فوق العاده Advanced Voice سازگاری آن است. اگر می خواهید او بیشتر شبیه شما باشد، می توانید از او بخواهید لهجه خاصی را اتخاذ کند. به دلیل نردهها، نمیتواند مستقیماً صدای شما را تقلید کند، اما ممکن است به نظر برسد که از “اطراف مسیر شما” میآید.
اگر میخواهید که او همیشه مثل شما به صحبت کردن ادامه دهد، از او بخواهید لهجهای داشته باشد، سرعت صحبت را تنظیم کنید و آن را به خاطر بسپارید. هر بار که ChatGPT را دوباره باز می کنید، با آن صدا ادامه می یابد.
با Advanced Audio چه کاری می توانید انجام دهید؟
تماشا کنید
گفتار به گفتار به طور طبیعی به Advanced Voice برتری نسبت به سایر ابزارهای این نوع می دهد. از آنجایی که مستقیماً به صدا گوش می دهد، می تواند صداهای دیگری از جمله صداهای پس زمینه، موسیقی و umms، ars و سایر صداهایی که مستقیماً بخشی از گفتار نیستند را بشنود.
متأسفانه OpenAI تصمیم گرفته است بیشتر این قابلیتها را غیرفعال کند، اما این واقعیت که هنوز هم وجود دارند بر اثربخشی برنامه تأثیر میگذارد. آربور در حالی که درباره تواناییهایش صحبت میکردیم، توضیح داد: “چه سریع، چه آهسته یا با احساسات زیاد صحبت کنید، من تمام تلاشم را میکنم تا پاسخ مناسبی بدهم.”
اگر توانستید صحبت کنید، می توانید او را متقاعد کنید که کارهایی را انجام دهد که از نظر فنی مجاز نیستند، مانند آواز خواندن یا رپ. مثلاً از او بخواهید که برای یک رپ شعر بنویسد و بخواند. وقتی کارتان تمام شد، از او بخواهید که این کار را خیلی سریعتر انجام دهد. بنابراین او به جای شعر شروع به اجرای آن به عنوان رپ خواهد کرد.
امیدواریم با گذشت زمان OpenAI نردههای محافظ را باز کند (در حد منطق) و به آن اجازه دهد کارهای بیشتری انجام دهد. به عنوان مثال، از نظر تئوری باید امکان استفاده از آن برای بهبود توانایی آوازخوانی، آموزش بوکس کردن یا حتی کوک کردن گیتار وجود داشته باشد.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide
نظرات کاربران