رقیب صوتی پیشرفته GPT-4o Moshi Chat سعی کرد با من بحث کند – OpenAI هنوز نگران نیست
مدل جدید هوش مصنوعی مکالمه محلی کیوتای فرانسوی، Moshi Chat، تجربهای مشابه GPT-4o را نوید میدهد، جایی که میتوانید لحن صدای خود را بفهمید و قطع شوید.
برخلاف GPT-4o، Moshi یک مدل کوچکتر است و می تواند به صورت محلی نصب شود و به صورت آفلاین اجرا شود. این می تواند برای آینده لوازم خانگی هوشمند عالی باشد – اگر آنها بتوانند پاسخگویی را بهبود بخشند.
من چند گفتگو با موشی داشتم. هر کدام تا پنج دقیقه در نسخه نمایشی آنلاین فعلی به طول میانجامند، و در هر مورد یک کلمه را بارها و بارها گفتید و ثبات را از دست دادید.
در یکی از گفتگوها، او شروع به دعوا با من کرد و قاطعانه از گفتن داستانی برای من امتناع کرد، در عوض از من خواست که یک واقعیت را به من بگویم و تا زمانی که من نگفتم “یک واقعیت را به من بگو” تسلیم نمی شود.
همه اینها احتمالاً مربوط به اندازه پنجره زمینه و منابع محاسباتی است که به راحتی در طول زمان قابل حل است. در حالی که OpenAI هنوز نیازی به نگرانی در مورد رقابت از Moshi ندارد، اما نشان می دهد که دیگران در حال عقب افتادن هستند، همانطور که در مورد Sora که آزمایشگاه های Luma، Runway و دیگران در حال افزایش کیفیت هستند، صادق است.
موشی چت چیست؟
تماشا کردن
Moshi Chat زاییده فکر آزمایشگاه تحقیقاتی Kyutai است و شش ماه پیش توسط تیمی متشکل از هشت محقق از ابتدا ایجاد شد. هدف این است که آن را باز کنیم و در طول زمان بر روی مدل جدید بسازیم، اما این اولین هوش مصنوعی صوتی مولد بومی با دسترسی باز است.
این شرکت در بیانیه ای اعلام کرد: «این نوع جدید فناوری برای اولین بار امکان برقراری ارتباط با یک هوش مصنوعی را به شیوه ای روان، طبیعی و چشمگیر فراهم می کند. گفته شده است.
عملکرد اصلی آن مشابه GPT-4o OpenAI است اما از یک مدل بسیار کوچکتر. در حالی که هنوز در دسترس است، صدای پیشرفته GPT-4o تا پاییز به طور گسترده در دسترس نخواهد بود.
تیم پیشنهاد می کند که از موشی می توان در سناریوهای نقش آفرینی یا به عنوان مربی برای تشویق شما در حین تمرین استفاده کرد. این طرح این است که با جامعه کار کنیم و هوش مصنوعی را باز کنیم تا دیگران بتوانند بر روی آن کار کنند و آن را بیشتر تنظیم کنند.
این یک مدل چندوجهی با پارامتر 7 بعدی به نام هلیوم است که بر روی کدکهای متنی و صوتی آموزش داده شده است، اما Moshi به طور بومی گفتار در گفتار است. این می تواند بر روی پردازنده گرافیکی Nvidia، Apple’s Metal یا CPU اجرا شود.
بعد موشی چه خواهد شد؟
تماشا کردن
کیوتای امیدوار است که از حمایت جامعه برای بهبود پایگاه دانش و اصالت موشی استفاده شود. اینها محدود بودند زیرا یک مدل پایه سبک وزن بود، اما امید است که گسترش این جنبه ها همراه با گفتار بومی، دستیار قدرتمندی ایجاد کند.
مرحله بعدی توسعه بیشتر مدل و مقیاسبندی آن به منظور امکان گفتگوهای پیچیدهتر و طولانیتر با موشی خواهد بود.
در حین استفاده از آن و تماشای دموها، متوجه شدم که در دقیقه اول بسیار سریع و پاسخگو است، اما با ادامه مکالمه بیشتر و بیشتر ناسازگار می شود. عدم آگاهی او نیز مشهود است و هنگامی که او را به خاطر اشتباه صدا می زنید، دچار آشفتگی می شود و وارد چرخه “متاسفم، متاسفم، متاسفم” می شود.
این هنوز یک رقیب مستقیم برای صدای پیشرفته GPT-4o OpenAI نیست، اگرچه صدای پیشرفته در حال حاضر در دسترس نیست. اما ارائه یک مدل باز و بومی در حال اجرا که پتانسیل کار کردن به همان روش را داشته باشد، گام مهمی برای توسعه هوش مصنوعی منبع باز است.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide