من در نهایت یک نسخه ی نمایشی زنده از ChatGPT-4o Voice را دیدم – اگر به اندازه کافی بیش از حد ارزیابی نشده باشد
OpenAI مدل GPT-4o را در جریان رویداد Spring Update در اوایل این ماه معرفی کرد و با اضافه شدن قابلیت صوتی زنده، توجه زیادی از جمله من را به خود جلب کرد. من بالاخره توانستم یک دمو زنده و حضوری ببینم و فکر نمیکنم به اندازه کافی زیادهروی شده باشد.
یک ساعت قبل از اینکه روی صحنه حاضر شوم تا یک پانل در مورد همتایان هوش مصنوعی در VivaTech، یک کنفرانس فناوری اروپایی در پاریس را تعدیل کنم، رومن هوئت، رئیس تجربه توسعهدهندگان OpenAI، تمام قابلیتهای جدید را نشان داد.
در طول دمو، Huet از برنامه دسکتاپ ChatGPT برای فعال کردن هوش مصنوعی برای پاسخگویی به مخاطبان با ظرفیت بیش از 400 استفاده کرد. او حتی این کار را با اشتیاق بیشتر و به زبان فرانسوی انجام داد. این لهجه شبیه یک آمریکایی بود که فرانسوی صحبت می کند، اما او گفت: “ما در تلاشیم آن را فرانسوی تر کنیم.”
به نظر می رسد که ما باید چند ماه صبر کنیم تا همه ما به این قابلیت های جدید دسترسی داشته باشیم زیرا OpenAI آنها را در آزمایش های امنیتی بیشتر قرار می دهد، اما زمانی که آنها وارد شوند، نحوه تعامل ما با فناوری را برای همیشه تغییر خواهد داد. به خصوص که در Windows Copilot نیز موجود خواهد بود.
ChatGPT Voice همچنین می تواند شما را ردیابی کند
یکی از تاثیرگذارترین لحظات زمانی بود که Huet ماژول دوربین را در بخش ChatGPT Audio برنامه دسکتاپ باز کرد (در چند ماه آینده).
او طرحی به او داد که برج ایفل و طاق پیروزی را نشان می داد. این فقط یک طرح خشن روی یک تکه کاغذ بود. ChatGPT هر دو را از پیشنویس شناسایی کرد.
سپس Huet نقشهای به ChatGPT نشان داد و از محل ما در پورت دو ورسای پرسید که چگونه میتوان به مکانهای موجود در طرح خود رسید. او توانست مسیر دقیق قطار را با توقف و تغییرات ارائه دهد.
او قصد داشت با استفاده از برنامه ChatGPT این ویژگیها را در آیفون نشان دهد، اما به دلیل مشکلات فنی در مکان، مجبور شد آن را روی لپتاپ نشان دهد. این بدان معناست که او میتواند یک نسخه نمایشی کدنویسی موقت با استفاده از ChatGPT انجام دهد – در نهایت او فردی با تجربه توسعهدهنده است.
با به اشتراک گذاشتن صفحه نمایش خود با هوش مصنوعی، او قادر به مشاهده کدهایی بود که ChatGPT نوشته بود، عملکرد آن را تعیین کرد و بهبودهایی را پیشنهاد کرد. سپس میتوانید خروجی را نشان دهید و راههایی برای تغییر کد بخواهید تا آن را متفاوت به نظر برساند یا کار کند. و همه در زمان واقعی.
نمایش سورا و موتور صدا
ما چیزی برای از دست دادن نداریم، ما برای آینده آماده ایم…📚 در #VivaTech، Lisa Heneghan @LHeneghanCIOA، Global Digital Officer @KPMG و @JulieRanty استراتژی هایی برای یادگیری مستمر و انطباق شغلی با شریک موسس @hey_pollen، هوش مصنوعی به اشتراک می گذارند. اهرمی برای فرصت های جدید. pic.twitter.com/j7BCl7LDlM22 مه 2024
به نظر می رسد OpenAI در حال حاضر وارد “حالت محصول” شده است. در حالی که هنوز هم خود را به عنوان یک آزمایشگاه تحقیقاتی متمرکز بر ساخت هوش عمومی مصنوعی توصیف می کند، اما بازی محصولات خود را نیز تقویت می کند. برنامه دسکتاپ ChatGPT در آستانه تبدیل شدن به یک ابزار بهره وری حیاتی است.
در خلال دمو در پاریس، Huet همچنین یک ویدیوی جدید Sora را که برای رویداد توسعه دهندگان OpenAI در پاریس در روز قبل آماده شده بود، به نمایش گذاشت و یک گشت شهری چند شات را نشان داد. از آنجایی که ساخت یک ویدیوی Sora حدود 15 دقیقه طول می کشد، این تنها قسمت از پیش ساخته شده در کل نسخه نمایشی بود.
من فقط میتوانستم این را روی یک صفحه کوچک از پشت صحنه تماشا کنم، بنابراین نمیتوانستم ویدیو بگیرم، اما هر چشمی در اتاق سبز در طول نمایش روی آن صفحه بود.
سورا ویدیوی خود را به ChatGPT ارسال کرد و از آنها خواست که محتوا را خلاصه کنند و یک فیلمنامه صوتی برای ویدیو بنویسند. اینجاست که ما شاهد یک محصول اشارهشده OpenAI در عمل هستیم: موتور صوتی. این فقط به دلیل نگرانی های امنیتی برای استفاده داخلی محفوظ است.
Huet توانست یک نمونه 20 ثانیه ای از صدای خود را (در زمان واقعی) ضبط کند و به Voice Engine اجازه داد تا آن را شبیه سازی کند و یک کپی کامل ایجاد کند. سپس برای ایجاد یک ویدیوی تبلیغاتی، این مورد روی ویدیوی سورا اعمال شد. اما او فراتر رفت. توانست به سرعت زبان را از انگلیسی به فرانسوی به ژاپنی با یک کلیک تغییر دهد.
Sora و Voice Engine برای عموم در دسترس نیستند زیرا “در حال کار بر روی راه هایی برای پخش ایمن آن هستند.”
پتانسیل ایجاد محتوای دروغین و ایجاد محتوای گمراهکننده با استفاده از این ابزار بسیار واقعی است، بنابراین من این سکوت را درک میکنم، اما فناوری مشابه در حال حاضر وجود دارد، بنابراین امیدوارم به زودی منتشر شود.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide