Google Gemini Live در مقابل ChatGPT-4o Voice – کدام دستیار هوش مصنوعی می تواند برنده شود؟
گوگل یک محصول هوش مصنوعی جدید به نام Gemini Live را در رویداد Google I/O روز سه شنبه معرفی کرد. همه ما تصور میکردیم که این همان کاری است که دستیار Gemini در اندروید قرار است انجام دهد، اما این گوگل است و همه چیز پیش میرود.
اگر فقط یک روز پس از اولین رویداد محصول مصرفی OpenAI وارد نشده بود، میپرسیدم که آیا Gemini Live برای اجرای ChatGPT Voice راهاندازی شده است. هر دو با استفاده از مدلهای هوش مصنوعی چندوجهی بومی ساخته شدهاند و قابلیتهای صوتی و تصویری چشمگیری دارند.
به نظر می رسد نام هایی که در حال حاضر در خط مقدم رقابت جهانی هوش مصنوعی قرار دارند OpenAI و Google هستند. اولی ظاهراً با اپل و آیفون همگرا می شود، در حالی که دومی بر اندروید تسلط دارد. دستگاه های هوش مصنوعی مانند Rabbit r1 یا Humane Pin را فراموش کنید. گوشی هوشمند در کوتاه مدت برنده است.
هر دو ChatGPT Voice و Gemini Live در یک محصول هوش مصنوعی موجود ادغام شدهاند و هیچکدام امروز در دسترس نیستند. بنابراین چگونه این دستیاران نسل بعدی مقایسه می شوند؟
Gemini Live و ChatGPT 4o چگونه با هم مقایسه می شوند؟
تابستان امسال، ما در حال گسترش قابلیتهای چندوجهی Gemini هستیم. از جمله توانایی گفتگوهای عمیق دو طرفه با استفاده از صدای شما. این تجربه جدید Live نام دارد. #GoogleIO pic.twitter.com/eAZbaO5WKz14 مه 2024
گوگل در مورد قابلیت اطمینان کمی عقب است، به خصوص وقتی صحبت از تجزیه و تحلیل ویدیوی زنده و نمایش قابلیت های صوتی می شود. هنگامی که Gemini سال گذشته Ultra را معرفی کرد، این کار را با ویدیویی انجام داد که به ویدیوی بلادرنگ پاسخ داد. اما این زمان واقعی یا ویدیویی نبود.
با این حال، این بار، آنها مطمئن شدند که این فناوری را برای آزمایش حداقل جنبه اولیه «Project Astra» ورودی/خروجی، از جمله تماس صوتی و تصویری، مناسب میسازند.
هر دو یک رابط صوتی مکالمه و زبان طبیعی را ارائه می دهند. هر دو پتانسیل تجزیه و تحلیل ویدیوی زنده از طریق دوربین گوشی هوشمند را ارائه می دهند، و هر دو به اندازه کافی سریع برای یک مکالمه واقعا طبیعی به نظر می رسند که می توانید جریان اواسط هوش مصنوعی را قطع کنید.
اما چند تفاوت قابل توجه وجود دارد. صدای ChatGPT OpenAI طبیعیتر به نظر میرسد، میتواند احساسات و آهنگهای صدا را تشخیص دهد و به آن پاسخ دهد، و حتی در زمان واقعی با نحوه صحبت شما سازگار شود. من هیچ مدرکی دال بر این توانایی در جمینی لایو ندیدم.
تفاوت بزرگ دیگر به چندوجهی بودن مربوط می شود. Gemini همچنان برای خروجی به مدلهای دیگر متکی است، از جمله استفاده از Imagen 3 برای تصاویر و Veo برای ویدیو. GPT-4o ذاتاً در هر دو جهت چندوجهی است. به معنای omni یا همه جهات است. او تصویر و صدای خود را خلق می کند.
جمینی لایو در مقابل GPT-4o: آینده دستیارهای صوتی
به نظر می رسد دنیا از ورودی متن فاصله گرفته و به سمت صدا حرکت می کند. هنگامی که من برای اولین بار اعلامیه OpenAI را تماشا کردم، واکنش من این بود که این یک تغییر پارادایم بزرگ در رابط انسان و کامپیوتر به اندازه راه اندازی یک ماوس یا صفحه لمسی بود.
من همچنان این دیدگاه را دارم و این واقعیت که گوگل همچنین یک رابط صوتی بومی و با صدای طبیعی ارائه می دهد، آن را بیشتر تقویت می کند. حتی Meta دارای MetaAI است، یک ربات صوتی که در هدستهای واقعیت مجازی و عینکهای هوشمند Ray-Ban یافت میشود.
در حالی که در حال حاضر برنده گوشی هوشمند است، واضح است که فاکتور شکل واقعی این مدل های هوش مصنوعی صوتی عینک های هوشمند هستند. دوربین هایی در ارتفاع چشم و بازوها برای ارسال امواج صوتی به گوش شما وجود دارد. اینها دستگاه های هوش مصنوعی کامل هستند.
سوال این است که آیا OpenAI به سمت سختافزار حرکت میکند و عینک هوشمند خود را عرضه میکند یا اینکه این سیری جدید خواهد بود و محصول آینده عینک اپل را تامین میکند. همچنین اینکه آیا گوگل واقعا به اندازه کافی شجاع است که عینک گوگل را احیا کند.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide