من از ChatGPT Advanced Voice برای رفتن به یک ماجراجویی در سفر در زمان استفاده کردم و شما باید آن را بشنوید

پروین میرمیران29 آگوست 2024آخرین به روز رسانی: 29 آگوست 2024

0 2,657 خواندن این مطلب 3 دقیقه زمان میبرد

صدای پیشرفته GPT-4o OpenAI یکی از قدرتمندترین و بالقوه‌ترین ابزارهای هوش مصنوعی سال است. این امکان را به شما می دهد که با صدای هوش مصنوعی یک مکالمه طبیعی شبیه به انسان داشته باشید و حتی وقتی بیش از حد صحبت می کند آن را قطع کنید.

در حال حاضر فقط برای تعداد کمی از مشترکین ChatGPT Plus در دسترس است، انتظار می رود این روش تعامل فناوری جدید در پاییز امسال به طور گسترده در دسترس باشد. این شرکت همچنین قصد دارد سال آینده یک حالت دید را راه اندازی کند که به شما امکان می دهد جهان را از طریق دوربین خود ببینید.

چیزی که Advanced Voice را از ChatGPT Voice یا حتی Gemini Live تازه منتشر شده متمایز می کند، ویژگی گفتار به گفتار آن است. این بدان معنی است که او به طور طبیعی می تواند آنچه را که می گویید، چگونه آن را بیان می کنید و لحن های احساسی پشت کلمات شما را درک کند.

او همچنین می‌تواند لهجه‌ها را انجام دهد و داستانی عالی تعریف کند، بنابراین از Advanced Voice خواستم تا من را به یک ماجراجویی سفر در زمان ببرد. او با سفر به مصر باستان شروع کرد و با صدای یک تاجر صحبت کرد. او نه تنها یک صداگذاری عالی انجام داد، بلکه یک داستان سرای سرگرم کننده نیز هست.

با صوتی پیشرفته، ماجراجویی را تشویق کنید

ما ChatGPT Advanced Voice – ماجراجویی در سفر در زمان – YouTube را آزمایش می کنیم

تماشا کنید

استفاده از صدای پیشرفته تفاوت چندانی با سایر فناوری های هوش مصنوعی ندارد زیرا با یک فرمان شروع می شود. برخلاف صحبت کردن از طریق متن با ChatGPT یا ایجاد تصویر با Midjourney، Advanced Voice دستورات را با صدای شما می گیرد.

در ابتدایی‌ترین سطح، این فقط به این است که به او بگویید می‌خواهید چه کاری انجام دهد، اما می‌تواند تغییرات تن صدا را نیز تشخیص دهد. بنابراین وقتی از او می‌خواهید معنای زندگی را توضیح دهد و این کار را با صدایی اندکی گریان یا غمگین انجام می‌دهید، او به گونه‌ای پاسخ می‌دهد که نشان‌دهنده نحوه خطاب شما به او باشد.

من حتی Advanced Voice را داشتم که از صدای Yoda برای بخش کوچکی از ماجراجویی استفاده کند و امتحان خوبی بود.

برای این ماجراجویی، من آن را مستقیماً بازی کردم، و به سادگی از Advanced Voice پرسیدم: “اکنون، ما یک داستان را بررسی می کنیم. تصور کنید شما یک مسافر زمان بودید. به کدام نقطه از تاریخ می رفتید؟”

او در قرن نوزدهم نمایشگاه جهانی را در شیکاگو پیشنهاد کرد. می‌خواستم که او نقش یک مسافر زمان را برعهده بگیرد، بلکه به عنوان مردم در نمایشگاه صحبت کند. پس از یک سفر سریع به شیکاگو، “بیا بریم جای دیگری. دکمه را فشار داده و مرا به جای جدیدی ببر.” گفتم. به مصر باستان رفتیم.

Advanced Voice گفت: “این را تصور کنید: اهرام باشکوهی ساخته می شوند و نیل به عنوان رگ حیات یک تمدن پر رونق در جریان است. در این زمان و مکان در مورد چه چیزی بیشتر کنجکاو هستید؟”

در اینجا از او سؤالاتی در مورد زبان پرسیدم، از جمله اینکه تا آنجا که می دانیم چگونه کلمات را تا حد امکان دقیق بیان کنیم.

سپس به بازاری رفتیم و سرانجام به رم رفتیم و بین تاجر مصری ما و یک شهروند رومی که یکی مصری صحبت می کرد و دیگری لاتین صحبت کرد. من حتی Advanced Voice را داشتم که از صدای Yoda برای بخش کوچکی از ماجراجویی استفاده کند و امتحان خوبی بود.

افکار نهایی

صدای پیشرفته GPT-4o

(اعتبار تصویر: آینده)

Advanced Voice یک داستان سرای عالی است که می تواند سطوح احساسی را تغییر دهد، شدت سناریوهای مختلف را منتقل کند و حتی از لهجه ها و صداهای مختلف استفاده کند.

مشکل من با این محدودیت های اعمال شده توسط OpenAI است. او می‌توانست جلوه‌های صوتی برای بهبود صحنه تولید کند، اما از انجام این کار منع شد. از نظر تئوری، او حتی می‌توانست صدایش را بیشتر از آنچه که قبلاً داشته است تطبیق دهد، اما دوباره با شکست مواجه شد.

مشکل یک مشکل قابل درک است: امنیت. درخواست از مدل برای انجام این وظایف غیرقابل پیش‌بینی‌تر می‌تواند منجر به خروجی‌هایی شود که دستورالعمل‌های امنیتی OpenAI را نقض می‌کند و Advanced Voice را به قلمروی ناامن برای انتشار سوق می‌دهد. ناامید کننده است که بدانید این توانایی ها تا حدودی دور از دسترس هستند.

حتی بدون این موارد، Advanced Voice بهترین تعاملی بود که با هوش مصنوعی داشتم. این امکان را برای مکالمه در زمان واقعی فراهم می کند، یک جریان طبیعی که در آن من می توانم از روی هوی و هوس صحبت را قطع کنم، و یک مکالمه با کسی که به لحن و سرعت من پاسخی انسانی می دهد.