چه کسی به کیبورد نیاز دارد؟ هیوم امکان کنترل رایانه با صدای خود را فراهم کرد

پروین میرمیران28 نوامبر 2024آخرین به روز رسانی: 28 نوامبر 2024

0 2,670 خواندن این مطلب 2 دقیقه زمان میبرد

چه کسی به کیبورد نیاز دارد؟ هیوم امکان کنترل رایانه با صدای خود را فراهم کرد

شرکت مدل‌سازی صدای همدلانه Hume AI از دمویی از ادغام فناوری محاسباتی Anthropic و فناوری رابط صوتی همدلانه Hume (EVI) رونمایی کرده است.

در ویدئویی که هیوم از کار دمو خود به اشتراک گذاشته است، کاربری دیده می شود که با صفحه کامپیوتر صحبت می کند تا یک بازی شطرنج غیرتهاجمی با شخصیت هیوم راه اندازی کند.

رایانه تخته را تنظیم می کند، کاربر را دعوت می کند تا اولین حرکت را انجام دهد و در نهایت کنترل کامل تخته، رایانه و مکالمه را در حالی که بازی شطرنج از طریق سه حرکت پیش می رود، به دست می آورد.

این همه بدون هیچ ورودی کاربر اتفاق می افتد. هیچ صفحه کلید، ماوس یا اتصال فیزیکی دیگری به جز چت صوتی خفه کننده هوش مصنوعی وجود ندارد. کنترل صوتی یک بازی شطرنج چیز جدیدی نیست، اما این بسیار فراتر از آن است.

در ظاهر، فناوری پشت این نمایش تا کنون به خوبی تثبیت شده است. یکی از مدل‌ها، Claude، تعاملات رایانه‌ای را از طریق توانایی «دیدن» صفحه از طریق آموزش چندوجهی و فعال کردن عملکردها مانند فشار دادن دکمه‌های روی صفحه کلید انجام می‌دهد.

ظرف چند سال، هوش مصنوعی صوتی در همه جا فراگیر خواهد شد و به عنوان رابط اصلی برای تعامل انسان و هوش مصنوعی عمل خواهد کرد.
آلن کوون، بنیانگذار هیوم

مدل Hume صدا را به متن به دستورات تبدیل می کند و آنها را به کلود می دهد، در حالی که خروجی متن هوش مصنوعی کامپیوتر را به آهنگ های دلپذیر برای گوش کاربر تبدیل می کند.

“با ادغام کلود با EVI، ما چیزی واقعاً خاص ایجاد کرده‌ایم. توانایی‌های زبان طبیعی و شخصیت کلود مکمل درک بیانی و همدلی EVI است، بنابراین EVI می‌تواند پاسخ‌های کلود را “فعال” کند و پاسخی روان، پاسخگو و شهودی ایجاد کند که بسیار انسانی است. آلن کاون، یکی از بنیانگذاران هیوم، می‌گوید: می‌تواند مکالمات حساس به زمینه ایجاد کند.

به‌طور فریبنده‌ای ساده به نظر می‌رسد، اما در پشت نسخه‌ی نمایشی شیک، مقدار زیادی فناوری در هر نقطه نهفته است. رابطه کلود – هیوم برای مدت طولانی در حال توسعه بوده است و برخی آمارها تعجب آور هستند.

بیش از 2 میلیون دقیقه تماس صوتی با هوش مصنوعی با استفاده از مدل‌های یکپارچه انجام شده است که به لطف بهینه‌سازی بهبودیافته به کاهش 10 درصدی تأخیر و کاهش هزینه‌ها تا 80 درصد کمک می‌کند.

روشی جدید برای استفاده از کامپیوتر

همه این پیشرفت‌های سریع در ارتباطات صوتی رایانه‌ای، مانند حالت صوتی پیشرفته OpenAI، Hume و حتی فناوری منبع باز Whisper، راه را به سوی آینده‌ای که هالیوود مدت‌ها متصور بود، نشان می‌دهد.

Star Trek meets The Jetsons با آینده‌ای دیستوپیایی مملو از قوری‌های سخنگو و پرینترهای لیزری غیرممکن دیدار می‌کند. آنها به این می گویند آینده “اول صدا”.

همانطور که Cowen می‌گوید، «در عرض چند سال، هوش مصنوعی صوتی در همه جا حاضر می‌شود و به عنوان رابط اصلی برای تعامل انسان و هوش مصنوعی عمل می‌کند».

با اتصال توابع کنترل مستقل کلود و پاسخ فوق سریع صدای رسا هیوم، نمایی اولیه از تعامل احتمالی آینده بین انسان و ماشین به ما نشان داده شده است.

احساس شما در این مورد بستگی به دیدگاه فعلی شما در مورد هوش مصنوعی و سرنوشت انسان ها در دنیایی دارد که هنوز ماشین های پرنده حل نشده است.