چه کسی به کیبورد نیاز دارد؟ هیوم امکان کنترل رایانه با صدای خود را فراهم کرد
شرکت مدلسازی صدای همدلانه Hume AI از دمویی از ادغام فناوری محاسباتی Anthropic و فناوری رابط صوتی همدلانه Hume (EVI) رونمایی کرده است.
در ویدئویی که هیوم از کار دمو خود به اشتراک گذاشته است، کاربری دیده می شود که با صفحه کامپیوتر صحبت می کند تا یک بازی شطرنج غیرتهاجمی با شخصیت هیوم راه اندازی کند.
رایانه تخته را تنظیم می کند، کاربر را دعوت می کند تا اولین حرکت را انجام دهد و در نهایت کنترل کامل تخته، رایانه و مکالمه را در حالی که بازی شطرنج از طریق سه حرکت پیش می رود، به دست می آورد.
این همه بدون هیچ ورودی کاربر اتفاق می افتد. هیچ صفحه کلید، ماوس یا اتصال فیزیکی دیگری به جز چت صوتی خفه کننده هوش مصنوعی وجود ندارد. کنترل صوتی یک بازی شطرنج چیز جدیدی نیست، اما این بسیار فراتر از آن است.
در ظاهر، فناوری پشت این نمایش تا کنون به خوبی تثبیت شده است. یکی از مدلها، Claude، تعاملات رایانهای را از طریق توانایی «دیدن» صفحه از طریق آموزش چندوجهی و فعال کردن عملکردها مانند فشار دادن دکمههای روی صفحه کلید انجام میدهد.
مدل Hume صدا را به متن به دستورات تبدیل می کند و آنها را به کلود می دهد، در حالی که خروجی متن هوش مصنوعی کامپیوتر را به آهنگ های دلپذیر برای گوش کاربر تبدیل می کند.
“با ادغام کلود با EVI، ما چیزی واقعاً خاص ایجاد کردهایم. تواناییهای زبان طبیعی و شخصیت کلود مکمل درک بیانی و همدلی EVI است، بنابراین EVI میتواند پاسخهای کلود را “فعال” کند و پاسخی روان، پاسخگو و شهودی ایجاد کند که بسیار انسانی است. آلن کاون، یکی از بنیانگذاران هیوم، میگوید: میتواند مکالمات حساس به زمینه ایجاد کند.
بهطور فریبندهای ساده به نظر میرسد، اما در پشت نسخهی نمایشی شیک، مقدار زیادی فناوری در هر نقطه نهفته است. رابطه کلود – هیوم برای مدت طولانی در حال توسعه بوده است و برخی آمارها تعجب آور هستند.
بیش از 2 میلیون دقیقه تماس صوتی با هوش مصنوعی با استفاده از مدلهای یکپارچه انجام شده است که به لطف بهینهسازی بهبودیافته به کاهش 10 درصدی تأخیر و کاهش هزینهها تا 80 درصد کمک میکند.
روشی جدید برای استفاده از کامپیوتر
همه این پیشرفتهای سریع در ارتباطات صوتی رایانهای، مانند حالت صوتی پیشرفته OpenAI، Hume و حتی فناوری منبع باز Whisper، راه را به سوی آیندهای که هالیوود مدتها متصور بود، نشان میدهد.
Star Trek meets The Jetsons با آیندهای دیستوپیایی مملو از قوریهای سخنگو و پرینترهای لیزری غیرممکن دیدار میکند. آنها به این می گویند آینده “اول صدا”.
همانطور که Cowen میگوید، «در عرض چند سال، هوش مصنوعی صوتی در همه جا حاضر میشود و به عنوان رابط اصلی برای تعامل انسان و هوش مصنوعی عمل میکند».
با اتصال توابع کنترل مستقل کلود و پاسخ فوق سریع صدای رسا هیوم، نمایی اولیه از تعامل احتمالی آینده بین انسان و ماشین به ما نشان داده شده است.
احساس شما در این مورد بستگی به دیدگاه فعلی شما در مورد هوش مصنوعی و سرنوشت انسان ها در دنیایی دارد که هنوز ماشین های پرنده حل نشده است.