Google Gemini Live در مقابل ChatGPT-4o Voice – کدام دستیار هوش مصنوعی می تواند برنده شود؟

پروین میرمیران15 می 2024آخرین به روز رسانی: 15 می 2024

0 2,656 خواندن این مطلب 3 دقیقه زمان میبرد

گوگل یک محصول هوش مصنوعی جدید به نام Gemini Live را در رویداد Google I/O روز سه شنبه معرفی کرد. همه ما تصور می‌کردیم که این همان کاری است که دستیار Gemini در اندروید قرار است انجام دهد، اما این گوگل است و همه چیز پیش می‌رود.

اگر فقط یک روز پس از اولین رویداد محصول مصرفی OpenAI وارد نشده بود، می‌پرسیدم که آیا Gemini Live برای اجرای ChatGPT Voice راه‌اندازی شده است. هر دو با استفاده از مدل‌های هوش مصنوعی چندوجهی بومی ساخته شده‌اند و قابلیت‌های صوتی و تصویری چشمگیری دارند.

به نظر می رسد نام هایی که در حال حاضر در خط مقدم رقابت جهانی هوش مصنوعی قرار دارند OpenAI و Google هستند. اولی ظاهراً با اپل و آیفون همگرا می شود، در حالی که دومی بر اندروید تسلط دارد. دستگاه های هوش مصنوعی مانند Rabbit r1 یا Humane Pin را فراموش کنید. گوشی هوشمند در کوتاه مدت برنده است.

هر دو ChatGPT Voice و Gemini Live در یک محصول هوش مصنوعی موجود ادغام شده‌اند و هیچکدام امروز در دسترس نیستند. بنابراین چگونه این دستیاران نسل بعدی مقایسه می شوند؟

Gemini Live و ChatGPT 4o چگونه با هم مقایسه می شوند؟

تابستان امسال، ما در حال گسترش قابلیت‌های چندوجهی Gemini هستیم. از جمله توانایی گفتگوهای عمیق دو طرفه با استفاده از صدای شما. این تجربه جدید Live نام دارد. #GoogleIO pic.twitter.com/eAZbaO5WKz14 مه 2024

گوگل در مورد قابلیت اطمینان کمی عقب است، به خصوص وقتی صحبت از تجزیه و تحلیل ویدیوی زنده و نمایش قابلیت های صوتی می شود. هنگامی که Gemini سال گذشته Ultra را معرفی کرد، این کار را با ویدیویی انجام داد که به ویدیوی بلادرنگ پاسخ داد. اما این زمان واقعی یا ویدیویی نبود.

با این حال، این بار، آنها مطمئن شدند که این فناوری را برای آزمایش حداقل جنبه اولیه «Project Astra» ورودی/خروجی، از جمله تماس صوتی و تصویری، مناسب می‌سازند.

هر دو یک رابط صوتی مکالمه و زبان طبیعی را ارائه می دهند. هر دو پتانسیل تجزیه و تحلیل ویدیوی زنده از طریق دوربین گوشی هوشمند را ارائه می دهند، و هر دو به اندازه کافی سریع برای یک مکالمه واقعا طبیعی به نظر می رسند که می توانید جریان اواسط هوش مصنوعی را قطع کنید.

اما چند تفاوت قابل توجه وجود دارد. صدای ChatGPT OpenAI طبیعی‌تر به نظر می‌رسد، می‌تواند احساسات و آهنگ‌های صدا را تشخیص دهد و به آن پاسخ دهد، و حتی در زمان واقعی با نحوه صحبت شما سازگار شود. من هیچ مدرکی دال بر این توانایی در جمینی لایو ندیدم.

تفاوت بزرگ دیگر به چندوجهی بودن مربوط می شود. Gemini همچنان برای خروجی به مدل‌های دیگر متکی است، از جمله استفاده از Imagen 3 برای تصاویر و Veo برای ویدیو. GPT-4o ذاتاً در هر دو جهت چندوجهی است. به معنای omni یا همه جهات است. او تصویر و صدای خود را خلق می کند.

جمینی لایو در مقابل GPT-4o: آینده دستیارهای صوتی

(اعتبار تصویر: گوگل)

به نظر می رسد دنیا از ورودی متن فاصله گرفته و به سمت صدا حرکت می کند. هنگامی که من برای اولین بار اعلامیه OpenAI را تماشا کردم، واکنش من این بود که این یک تغییر پارادایم بزرگ در رابط انسان و کامپیوتر به اندازه راه اندازی یک ماوس یا صفحه لمسی بود.

من همچنان این دیدگاه را دارم و این واقعیت که گوگل همچنین یک رابط صوتی بومی و با صدای طبیعی ارائه می دهد، آن را بیشتر تقویت می کند. حتی Meta دارای MetaAI است، یک ربات صوتی که در هدست‌های واقعیت مجازی و عینک‌های هوشمند Ray-Ban یافت می‌شود.

در حالی که در حال حاضر برنده گوشی هوشمند است، واضح است که فاکتور شکل واقعی این مدل های هوش مصنوعی صوتی عینک های هوشمند هستند. دوربین هایی در ارتفاع چشم و بازوها برای ارسال امواج صوتی به گوش شما وجود دارد. اینها دستگاه های هوش مصنوعی کامل هستند.

سوال این است که آیا OpenAI به سمت سخت‌افزار حرکت می‌کند و عینک هوشمند خود را عرضه می‌کند یا اینکه این سیری جدید خواهد بود و محصول آینده عینک اپل را تامین می‌کند. همچنین اینکه آیا گوگل واقعا به اندازه کافی شجاع است که عینک گوگل را احیا کند.