رقیب صوتی پیشرفته GPT-4o Moshi Chat سعی کرد با من بحث کند – OpenAI هنوز نگران نیست

پروین میرمیران4 جولای 2024آخرین به روز رسانی: 4 جولای 2024

0 2,658 خواندن این مطلب 3 دقیقه زمان میبرد

مدل جدید هوش مصنوعی مکالمه محلی کیوتای فرانسوی، Moshi Chat، تجربه‌ای مشابه GPT-4o را نوید می‌دهد، جایی که می‌توانید لحن صدای خود را بفهمید و قطع شوید.

برخلاف GPT-4o، Moshi یک مدل کوچکتر است و می تواند به صورت محلی نصب شود و به صورت آفلاین اجرا شود. این می تواند برای آینده لوازم خانگی هوشمند عالی باشد – اگر آنها بتوانند پاسخگویی را بهبود بخشند.

من چند گفتگو با موشی داشتم. هر کدام تا پنج دقیقه در نسخه نمایشی آنلاین فعلی به طول می‌انجامند، و در هر مورد یک کلمه را بارها و بارها گفتید و ثبات را از دست دادید.

در یکی از گفتگوها، او شروع به دعوا با من کرد و قاطعانه از گفتن داستانی برای من امتناع کرد، در عوض از من خواست که یک واقعیت را به من بگویم و تا زمانی که من نگفتم “یک واقعیت را به من بگو” تسلیم نمی شود.

همه اینها احتمالاً مربوط به اندازه پنجره زمینه و منابع محاسباتی است که به راحتی در طول زمان قابل حل است. در حالی که OpenAI هنوز نیازی به نگرانی در مورد رقابت از Moshi ندارد، اما نشان می دهد که دیگران در حال عقب افتادن هستند، همانطور که در مورد Sora که آزمایشگاه های Luma، Runway و دیگران در حال افزایش کیفیت هستند، صادق است.

موشی چت چیست؟

ما Moshi Chat – AI chat-talk – YouTube را آزمایش می کنیم

تماشا کردن

Moshi Chat زاییده فکر آزمایشگاه تحقیقاتی Kyutai است و شش ماه پیش توسط تیمی متشکل از هشت محقق از ابتدا ایجاد شد. هدف این است که آن را باز کنیم و در طول زمان بر روی مدل جدید بسازیم، اما این اولین هوش مصنوعی صوتی مولد بومی با دسترسی باز است.

این شرکت در بیانیه ای اعلام کرد: «این نوع جدید فناوری برای اولین بار امکان برقراری ارتباط با یک هوش مصنوعی را به شیوه ای روان، طبیعی و چشمگیر فراهم می کند. گفته شده است.

عملکرد اصلی آن مشابه GPT-4o OpenAI است اما از یک مدل بسیار کوچکتر. در حالی که هنوز در دسترس است، صدای پیشرفته GPT-4o تا پاییز به طور گسترده در دسترس نخواهد بود.

تیم پیشنهاد می کند که از موشی می توان در سناریوهای نقش آفرینی یا به عنوان مربی برای تشویق شما در حین تمرین استفاده کرد. این طرح این است که با جامعه کار کنیم و هوش مصنوعی را باز کنیم تا دیگران بتوانند بر روی آن کار کنند و آن را بیشتر تنظیم کنند.

این یک مدل چندوجهی با پارامتر 7 بعدی به نام هلیوم است که بر روی کدک‌های متنی و صوتی آموزش داده شده است، اما Moshi به طور بومی گفتار در گفتار است. این می تواند بر روی پردازنده گرافیکی Nvidia، Apple’s Metal یا CPU اجرا شود.

بعد موشی چه خواهد شد؟

Moshi Keynote – Kyutai – YouTube
Moshi Keynote - Kyutai - YouTube

تماشا کردن

کیوتای امیدوار است که از حمایت جامعه برای بهبود پایگاه دانش و اصالت موشی استفاده شود. اینها محدود بودند زیرا یک مدل پایه سبک وزن بود، اما امید است که گسترش این جنبه ها همراه با گفتار بومی، دستیار قدرتمندی ایجاد کند.

مرحله بعدی توسعه بیشتر مدل و مقیاس‌بندی آن به منظور امکان گفتگوهای پیچیده‌تر و طولانی‌تر با موشی خواهد بود.

در حین استفاده از آن و تماشای دموها، متوجه شدم که در دقیقه اول بسیار سریع و پاسخگو است، اما با ادامه مکالمه بیشتر و بیشتر ناسازگار می شود. عدم آگاهی او نیز مشهود است و هنگامی که او را به خاطر اشتباه صدا می زنید، دچار آشفتگی می شود و وارد چرخه “متاسفم، متاسفم، متاسفم” می شود.

این هنوز یک رقیب مستقیم برای صدای پیشرفته GPT-4o OpenAI نیست، اگرچه صدای پیشرفته در حال حاضر در دسترس نیست. اما ارائه یک مدل باز و بومی در حال اجرا که پتانسیل کار کردن به همان روش را داشته باشد، گام مهمی برای توسعه هوش مصنوعی منبع باز است.