من به تازگی با Meta AI Voice صحبت کردم و خیلی بهتر از چیزی است که انتظار داشتم
در رویداد Connect که ماه گذشته برگزار شد، متا اعلام کرد که حالت صوتی جدیدی را برای ربات چت متا هوش مصنوعی که به طور فزاینده ای محبوب شده است، به ارمغان خواهد آورد. بالاخره شروع به عرضه کرد و پس از آزمایش اولیه، آن را جذابتر و طبیعیتر از آنچه انتظار داشتم یافتم.
برخلاف OpenAI’s Enhanced Voice در ChatGPT که یک ویژگی بومی گفتار به گفتار است، MetaAI Voice ابتدا آنچه را که می گویید به متن تبدیل می کند، به عنوان متن پاسخ می دهد و سپس پاسخ را با صدای بلند می خواند. این به همان روش جمینی لایو گوگل عمل می کند.
هوش مصنوعی متا همچنین دارای صداهای مختلفی است، از جمله افراد مشهوری مانند Dame Judi Dench، Awkwafina، Keegan-Michael Key و Kristen Bell. همچنین پنج صدای سیستم اضافی وجود دارد که به همان اندازه طبیعی و جذاب به نظر می رسند و از صدای افراد مشهور کپی نشده اند.
حتی اگر تبدیل متن به گفتار است، میتوانید هوش مصنوعی را قطع کنید، و من متوجه شدم که این وقفه بهتر از Copilot جدید مایکروسافت یا Google Gemini Live است.
چگونه می توانم به Meta AI Voice دسترسی داشته باشم؟
هوش مصنوعی متا در اکثر محصولات متا از جمله واتس اپ، اینستاگرام، فیس بوک و عینک هوشمند Ray-Ban در دسترس است. برای دسترسی به آن کافی است به جای تماس انسانی با هوش مصنوعی مکالمه را شروع کنید.
این هنوز در سطح جهانی در دسترس نیست، اما دسترسی به صورت جزئی در حال گسترش است. به عنوان مثال، انگلستان به WhatsApp دسترسی دارد اما به نسخه وب در meta.ai دسترسی ندارد. دسترسی به عینک نیز تکه تکه است، با مشخصات متفاوت در کشورهای مختلف موجود است.
حالت صوتی به عنوان یک نماد در نوار چت که در آن به آن دسترسی دارید در دسترس است. به نظر می رسد شکل موجی متشکل از یک سری خطوط کوچکتر، بزرگتر و دوباره کوچکتر است. با کلیک بر روی آن، نمای به یک دایره روی صفحه تغییر می کند و هوش مصنوعی با صدایی که شما انتخاب کرده اید شروع به صحبت می کند.
برای تغییر صدا، روی نماد “اطلاعات” در گوشه سمت راست بالای حالت صدا کلیک کنید، صدا را انتخاب کنید و از لیست 9 گزینه انتخاب کنید. در نمای تنظیمات، می توانید جزئیات مکالمات قبلی و تصاویری را که به هوش مصنوعی ارسال کرده اید نیز مشاهده کنید.
وقتی از حالت صوتی در ChatGPT یا Copilot استفاده میکنید، تنها چیزی که به دست میآورید صدا است، اما از آنجایی که متا AI گفتار را به متن تبدیل میکند، کلماتی را که میگوید بر روی صفحه نمایش میدهد تا شما با آن بخوانید. اما این همیشه کامل نیست. در یک لحظه از جودی دنچ خواستم که رپ بزند و او گفت “رپ”، که فکر میکنم بهتر از میلههای واقعی جودی دنچ است که بالای ضرب میریزد.
تماشا کنید
Meta AI Voice کمی رباتیک تر از Advanced Voice یا Copilot Voice است. این نتیجه این است که باید آنچه را که می گویید ابتدا به صورت نوشتاری درج کنید.
بزرگترین مزیت گفتار بومی که در Copilot و Advanced Voice استفاده می شود، امکان تغییر صدا بر اساس نحوه صحبت شما است. علیرغم محدودیت های تا حدی ساختگی صدا، صداها واقعاً چشمگیر هستند.
صدای افراد مشهور بسیار شبیه به فردی است که از آنها تقلید می کنند. حتی صدای غیر سلبریتی ها طبیعی تر از آن چیزی است که از مدل های دیگر شنیده ام. من فکر می کنم متا بهترین صدا را در بین تمام ابزارهای هوش مصنوعی دارد. جستجو در میان آنها خاطراتی از انتخاب آهنگ زنگ در جوانی در دهه 90 برایم ایجاد کرد.
پس از آزمایش، پس از اینکه از هوش مصنوعی خواستم غزلی را به «Gen Alpha Argo» ترجمه کند و هوش مصنوعی آن را با صدای خودش خواند، احساس کردم باید از جودی دنچ عذرخواهی کنم.
فراتر از صدا، شبیه به سایر هوش مصنوعی است. از نظر عملکرد به Google Gemini Live نزدیکتر است و با اضافه شدن دسترسی به دادههای متای شما (بخوانید فیسبوک، اینستاگرام و واتساپ)، زمینه شخصی اضافهشدهای دارد که فقط اپل میتواند با آن مطابقت داشته باشد.
علیرغم محدودیتها، متوجه شدم که نسبت به مدلهای صوتی محلی هوشمندتر پاسخدهندهتر است، هرگز از پاسخ دادن امتناع نمیکند و میتواند هر بار با موفقیت قطع کند. اما او فقط گزیدههای کوتاهی از یک اثر واقعی (شعر، داستان) میخواند و داستانهایی که میسازد حداکثر شامل یک یا دو پاراگراف است. صحبت های طولانی نبود.
متا نه تنها با چت ربات هوش مصنوعی متا، بلکه با مدل صوتی خود کار خارق العاده ای انجام داده است و پیش بینی من این است که تا پایان سال 2025 یک میلیارد نفر به طور منظم از آن استفاده خواهند کرد.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide