OpenAI به تازگی یک ارتقای بالقوه عمده را برای همه بلندگوهای هوشمند ارائه کرده است – دلیل آن این است

پروین میرمیران10 اکتبر 2024آخرین به روز رسانی: 10 اکتبر 2024

0 2,664 خواندن این مطلب 3 دقیقه زمان میبرد

OpenAI به تازگی یک ارتقای بالقوه عمده را برای همه بلندگوهای هوشمند ارائه کرده است – دلیل آن این است

ممکن است بلندگوهای هوشمند مانند گذشته در همه جا حاضر نباشند، اما به احتمال زیاد شما، خواننده فهیم راهنمای Tom’s، حداقل یکی از آنها در خانه خود دارید.

چه از الکسا، چه از دستیار گوگل یا هوم پاد استفاده کنید، OpenAI ممکن است زمینه را برای ارتقای بزرگی برای بلندگوی چت انتخابی شما فراهم کرده باشد.

شرکتی که پشت “Realtime API” جدید ChatGPT قرار دارد، به عنوان نوعی بافت همبند عمل می کند که به “اتصال” ویژگی های صوتی پیشرفته (و بیشتر) به سایر برنامه ها کمک می کند.

چگونه می توان از مدل جدید Depth Pro اپل استفاده کرد؟

OpenAI Real-Time API: آینده هوش مصنوعی صوتی؟ -یوتیوب

تماشا کنید

به گفته OpenAI، “توسعه دهندگان اکنون می توانند تجربیات گفتار به گفتار سریع را در برنامه های خود جاسازی کنند.”

این یک خلاصه بسیار خوب است و مشابه حالت صوتی پیشرفته ChatGPT کار می کند و عملکرد گفتار به گفتار را ارائه می دهد که توسعه دهندگان می توانند در برنامه های خود پیاده سازی کنند.

پیش از این، توسعه دهندگان مجبور بودند اسکریپت ها را با استفاده از یک برنامه تشخیص گفتار به متن تبدیل کنند. این منجر به صدای “عادی”، عاری از تفاوت های ظریف و حس واقعی گفتار می شود. OpenAI توضیح می دهد که Chat Completion API مدیریت آن را در یک تماس API آسان می کند.

همانطور که از نام آن پیداست، Realtime API می‌تواند صدا و ورودی را مستقیماً پخش کند و به توسعه‌دهندگان این امکان را می‌دهد تا به طور طبیعی (هرچند خام به نظر برسد) دستیارهای صوتی را قطع کنند.

برای بلندگوهای هوشمند چقدر می تواند بزرگ شود؟

این عنصر اختلال کلیدی است. چند بار بلندگوی هوشمند شما دستور شما را اشتباه تعبیر کرده است و باید منتظر بمانید تا با خودش صحبت کند تا به نقطه ای برسد که بتوانید دوباره بپرسید؟

دردناک است، اما با تشخیص قطعی بهتر، اوضاع می‌تواند بسیار بهتر شود. بلندگوی هوشمندی که انتخاب می‌کنید می‌تواند کارها را در دفعات اول با یک مدل پایه بهتر که دستورات شما را تفسیر می‌کند، به درستی انجام دهد. خود دستورات می توانند بسیار پیچیده تر باشند.

اگر تا به حال سعی کرده اید از بلندگوی هوشمند خود بخواهید چندین کار را به ترتیب انجام دهد یا به مکالمات قبلی ارجاع دهد، می دانید که گاهی اوقات واقعاً به هر حال آنقدرها هم هوشمند نیست. اما با آگاهی متنی از API بلادرنگ OpenAI، می‌توانید از سخنران خود بخواهید چیزی را از یک مکالمه قبلی به خاطر بسپارد یا نمایه خود را اضافه کند تا بدانید چگونه شما، شریک زندگی یا فرزندانتان را متفاوت خطاب کنید.

طبیعتاً در این مرحله همه اینها فقط حدس و گمان است، اما Echo Dot که نیم دهه پیش در Prime Day دریافت کردید ممکن است در شرف بارگذاری بیش از حد باشد.

Realtime API چه کارهای دیگری می تواند انجام دهد؟

امروز در DevDay SF تعدادی ویژگی جدید را برای پلتفرم OpenAI راه اندازی می کنیم: pic.twitter.com/y4cqDGugju1 اکتبر 2024

من به هیچ وجه پیشنهاد نمی‌کنم که هوش مصنوعی جایگزین مشاغل انسانی شود (در این زمینه بسیار بسیار لغزنده است و روز به روز فرسایش بیشتری می‌یابد)، اما فکر می‌کنم امکانات بیشتری وجود دارد فراتر از اینکه بدانیم کدام نسخه شما چیست. سخنران می داند هر آهنگی که بخوای

یک تناسب آشکار می‌تواند مراکز تماس باشد، که هنوز به افراد برای بخش‌های خدمات واقعی کسب‌وکار نیاز دارند، اما می‌توانند از اولویت‌بندی دقیق‌تر تماس‌ها بهره ببرند (گزینه‌های صفحه کلید در سال 2024 به پایان خواهند رسید!).

همچنین این پتانسیل برای دستیارهای صوتی به طور کلی وجود دارد که با استفاده از یک API یکسان، قابل تعویض تر شوند، یا فناوری به قدری دموکراتیک شود که گزینه های بیشتری از همیشه در اپ استور داشته باشیم.

در نهایت، مدل بلادرنگ OpenAI می‌تواند روی روبات‌ها اجرا شود. دور از ذهن به نظر می رسد، اما داشتن ربات هایی که می توانند به روشی انسانی تر ارتباط برقرار کنند، می تواند گام بعدی در اتوماسیون باشد، یا آنها می توانند خطاها را خودشان تشخیص دهند و به شما بگویند که چگونه آنها را برطرف کنید.