OpenAI به تازگی یک ارتقای بالقوه عمده را برای همه بلندگوهای هوشمند ارائه کرده است – دلیل آن این است
ممکن است بلندگوهای هوشمند مانند گذشته در همه جا حاضر نباشند، اما به احتمال زیاد شما، خواننده فهیم راهنمای Tom’s، حداقل یکی از آنها در خانه خود دارید.
چه از الکسا، چه از دستیار گوگل یا هوم پاد استفاده کنید، OpenAI ممکن است زمینه را برای ارتقای بزرگی برای بلندگوی چت انتخابی شما فراهم کرده باشد.
شرکتی که پشت “Realtime API” جدید ChatGPT قرار دارد، به عنوان نوعی بافت همبند عمل می کند که به “اتصال” ویژگی های صوتی پیشرفته (و بیشتر) به سایر برنامه ها کمک می کند.
چگونه می توان از مدل جدید Depth Pro اپل استفاده کرد؟
تماشا کنید
به گفته OpenAI، “توسعه دهندگان اکنون می توانند تجربیات گفتار به گفتار سریع را در برنامه های خود جاسازی کنند.”
این یک خلاصه بسیار خوب است و مشابه حالت صوتی پیشرفته ChatGPT کار می کند و عملکرد گفتار به گفتار را ارائه می دهد که توسعه دهندگان می توانند در برنامه های خود پیاده سازی کنند.
پیش از این، توسعه دهندگان مجبور بودند اسکریپت ها را با استفاده از یک برنامه تشخیص گفتار به متن تبدیل کنند. این منجر به صدای “عادی”، عاری از تفاوت های ظریف و حس واقعی گفتار می شود. OpenAI توضیح می دهد که Chat Completion API مدیریت آن را در یک تماس API آسان می کند.
همانطور که از نام آن پیداست، Realtime API میتواند صدا و ورودی را مستقیماً پخش کند و به توسعهدهندگان این امکان را میدهد تا به طور طبیعی (هرچند خام به نظر برسد) دستیارهای صوتی را قطع کنند.
برای بلندگوهای هوشمند چقدر می تواند بزرگ شود؟
این عنصر اختلال کلیدی است. چند بار بلندگوی هوشمند شما دستور شما را اشتباه تعبیر کرده است و باید منتظر بمانید تا با خودش صحبت کند تا به نقطه ای برسد که بتوانید دوباره بپرسید؟
دردناک است، اما با تشخیص قطعی بهتر، اوضاع میتواند بسیار بهتر شود. بلندگوی هوشمندی که انتخاب میکنید میتواند کارها را در دفعات اول با یک مدل پایه بهتر که دستورات شما را تفسیر میکند، به درستی انجام دهد. خود دستورات می توانند بسیار پیچیده تر باشند.
اگر تا به حال سعی کرده اید از بلندگوی هوشمند خود بخواهید چندین کار را به ترتیب انجام دهد یا به مکالمات قبلی ارجاع دهد، می دانید که گاهی اوقات واقعاً به هر حال آنقدرها هم هوشمند نیست. اما با آگاهی متنی از API بلادرنگ OpenAI، میتوانید از سخنران خود بخواهید چیزی را از یک مکالمه قبلی به خاطر بسپارد یا نمایه خود را اضافه کند تا بدانید چگونه شما، شریک زندگی یا فرزندانتان را متفاوت خطاب کنید.
طبیعتاً در این مرحله همه اینها فقط حدس و گمان است، اما Echo Dot که نیم دهه پیش در Prime Day دریافت کردید ممکن است در شرف بارگذاری بیش از حد باشد.
Realtime API چه کارهای دیگری می تواند انجام دهد؟
امروز در DevDay SF تعدادی ویژگی جدید را برای پلتفرم OpenAI راه اندازی می کنیم: pic.twitter.com/y4cqDGugju1 اکتبر 2024
من به هیچ وجه پیشنهاد نمیکنم که هوش مصنوعی جایگزین مشاغل انسانی شود (در این زمینه بسیار بسیار لغزنده است و روز به روز فرسایش بیشتری مییابد)، اما فکر میکنم امکانات بیشتری وجود دارد فراتر از اینکه بدانیم کدام نسخه شما چیست. سخنران می داند هر آهنگی که بخوای
یک تناسب آشکار میتواند مراکز تماس باشد، که هنوز به افراد برای بخشهای خدمات واقعی کسبوکار نیاز دارند، اما میتوانند از اولویتبندی دقیقتر تماسها بهره ببرند (گزینههای صفحه کلید در سال 2024 به پایان خواهند رسید!).
همچنین این پتانسیل برای دستیارهای صوتی به طور کلی وجود دارد که با استفاده از یک API یکسان، قابل تعویض تر شوند، یا فناوری به قدری دموکراتیک شود که گزینه های بیشتری از همیشه در اپ استور داشته باشیم.
در نهایت، مدل بلادرنگ OpenAI میتواند روی روباتها اجرا شود. دور از ذهن به نظر می رسد، اما داشتن ربات هایی که می توانند به روشی انسانی تر ارتباط برقرار کنند، می تواند گام بعدی در اتوماسیون باشد، یا آنها می توانند خطاها را خودشان تشخیص دهند و به شما بگویند که چگونه آنها را برطرف کنید.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide