Google I/O 2024 — این 7 دمو هوش مصنوعی Gemini گوگل را در بهترین حالت خود نشان دادند
MOUNTAIN VIEW، کالیفرنیا — سخنرانی امسال Google I/O 2024 قدرت حضور در جایی را با تمرکز بیوقفه بر هوش مصنوعی ثابت کرد. من مطمئن هستم که افرادی که پخش زنده را تماشا کردند و وبلاگ زنده راهنمای Tom's را دنبال کردند، از اعلان های مختلفی که گوگل در مورد مدل هوش مصنوعی Gemini انجام داده است، بهره مند شدند. اما حضور در سالن آمفی تئاتر Shoreline به شما این فرصت را داد تا قابلیت های متعدد Gemini را از نزدیک ببینید و واقعاً بفهمید که گوگل با این ابزارها به کجا می رود.
من باید بدانم. بلافاصله پس از پایان سخنرانی، بعدازظهر سهشنبه را از حالت نمایشی به نسخه نمایشی اجرا کردم و بخش متفاوتی از داستان هوش مصنوعی گوگل را به نمایش گذاشتم. در بیشتر موارد، اینها تکرار همان چیزی بود که گوگل روی صحنه نشان داد. با این حال، من این مزیت را داشتم که چند متر دورتر از صحنه ایستاده بودم تا اینکه یک دوجین ردیف عقب بنشینم. و در برخی موارد، گوگل قابلیت های دیگری را نشان داده است که تنها در سخنرانی اصلی به آنها اشاره شده است.
نتیجه نهایی؟ من از کاری که مدل جمینی می تواند انجام دهد که در ابتدای روز نداشتم، قدردانی می کنم. من فکر میکنم گوگل ویژگیهای بسیار مفیدی دارد که در مراحل مختلف راهاندازی هستند، اگرچه اثبات نهایی ارزش این ویژگیها زمانی خواهد بود که برای افرادی مانند من و شما در دسترس قرار گیرند.
در اینجا هفت دموی Google I/O وجود دارد که توجه من را به خود جلب کرد زیرا بیشتر در مورد کارهایی که Gemini می تواند انجام دهد یاد گرفتم.
خلاصه کردن ایمیل ها در جیمیل
@tomsguide ♬ صدای اصلی – راهنمای تام
در طول سخنرانی، من وظیفه پوشش دادن ویژگیهای مجهز به Gemini به Google Workspace را داشتم، بنابراین با ارتقاء هوش مصنوعی که گوگل برای جیمیل در نظر گرفته بود کاملاً آشنا بودم. با این حال، نسخه ی نمایشی خاص ویژگی خلاصه ایمیل که به نفع من انجام شد، تقریباً به هدف من نزدیک شد.
نسخه ی نمایشی گوگل شامل یک خبرنامه مدرسه بسیار مفصل و بسیار طولانی بود که می توانست در صندوق ورودی هر والدینی قرار بگیرد. گوگل بهجای جستجوی اطلاعات در مورد دانشآموزانش، نشان داد که چگونه ویژگی جدید Summarize Emails میتواند به شما اجازه دهد چیز خاصی را بخواهید – به عنوان مثال، اطلاعاتی که فقط به دانشآموزان کلاس هفتم مربوط میشود – و آنها را به طور دقیق خلاصه کنید. و نقاط گلوله شسته و رفته.
من پدر و مادر یک دانش آموز کلاس هفتم هستم که به طور منظم، خبرنامه های مدرسه را با اطلاعات زیادی دریافت می کند که فقط برخی از آنها به علایق من مربوط می شود. بنابراین بله، ایمیلهای خلاصه نمیتوانند به زودی به اینجا برسند. این ماه برای کاربران آزمایشگاه فضای کاری در دسترس خواهد بود، در حالی که Gemini برای مشتریان Workspace و مشترکین Google One AI Premium در ماه ژوئن به آن دسترسی خواهند داشت.
باید توجه داشته باشم که نماینده هوش مصنوعی که نامه را در نسخه نمایشی گوگل اسکن می کند ممکن است مشتری بسیار باهوشی باشد. او علاوه بر اقلام خبرنامه ای که به طور خاص از دانش آموزان کلاس هفتم نام می برد، مطلبی را نیز در مورد فرصتی که برای کودکان کلاس های چهارم تا نهم باز است منتشر کرد. او به اندازه کافی می داند که بفهمد این برای کلاس هفتم ها نیز صادق است.
پرسش و پاسخ جیمیل
ابزار دیگری که به جیمیل میآید، ویژگی پرسش و پاسخ است، که در آن میتوانید جمینی را مأمور استخراج دادههای خاص از مجموعهای از ایمیلها کنید. در این نمونه خبرنامه مدرسه، خلاصه ایمیل یک سفر شبانه برای کلاس هفتم را بیان می کرد. با استفاده از ابزارهای جدید Gemini در پانل جانبی Workspace، که اکنون برای Workspace Labs و Gemini برای کاربران Workspace Alpha در دسترس است، از Gemini پرسیدیم که آیا لیست بسته بندی برای این سفر دارد یا خیر. در واقع، وجود داشت و عامل هوش مصنوعی لیست را از جایی که در ایمیل دفن شده بود استخراج کرد.
همانطور که جستجوی ویژگی پرسش و پاسخ برای متن خاص مفید است، گوگل فکر می کند این ابزار بیشتر از این کار می کند. در طول سخنرانی اصلی Google I/O، آپارنا پاپو، معاون و مدیر کل Google Workspace، اشاره کرد که در اواخر سال جاری Gemini میتواند رسیدها و فاکتورها را تشخیص دهد، آنها را در پوشهای در Google Drive شما ثبت کند و حتی آنها را بایگانی کند. . وارد کردن آنها به صفحه گسترده ردیابی در Sheets.
جمینی پیشرفته
نسخه ی نمایشی که مدل Gemini Advanced را به 1.5 Pro به روز می کند، شاید جالب ترین دمویی نبود که در Google I/O دیدم، اما کمک بصری بسیار مفیدی داشت. عکس بالا نشان می دهد که اگر یک PDF 1500 صفحه ای آن را چاپ کنید چقدر بزرگ می شود. پنجره زمینه 1 میلیون رمزی Gemini Advanced به این معنی است که می تواند چنین سند بزرگی را معنا کند.
این فقط خلاصه ای از اسناد عظیم نیست. Gemini Advanced همچنین می تواند هر گونه اطلاعات پیچیده موجود در این صفحات را پردازش کند. برای نشان دادن این موضوع، یکی از کارمندان گوگل دو فایل پی دی اف بزرگ را گرفت که مسائل مربوط به مقررات مشابه را پوشش می داد (یکی 522 صفحه، دیگری 144 صفحه) و از Gemini Advanced خواست تا موضوعات تحت پوشش یک سند را شناسایی کند اما در دیگری نه.
مربیگری هوش مصنوعی
نسخه ی نمایشی مورد علاقه من از Google I/O باعث شد که با عصبانیت به فوتبالی لگد بزنم و از تجزیه و تحلیل هوش مصنوعی استفاده کنم تا بفهمم ضربات پنالتی ناخواسته من کجا اینقدر اشتباه بوده است. سه تلاش طول کشید تا توپ را درون دروازه قرار دهم، زیرا دوربین ها فرم من را اندازه گرفتند تا از نظر قدرت، دقت و سبک امتیازات را به دست آورند.
تجزیه و تحلیل توسط Gemini 1.5 Pro ارائه شده است، اما فقط به شکل اعداد خام نیست. هوش مصنوعی همچنین بازخوردهایی را ایجاد کرد که توسط یک مربی فوتبال مجازی بیان شده بود و مربیان واقعی مدل را در مورد اینکه چه چیزی را ارزیابی کند آموزش دادند. تصمیم؟ برای تولید مداوم قدرت، باید مچ پایم را قفل کنم و با توری هایم به توپ ضربه بزنم. مراقب پشتت باش مسی
پروژه آسترا
@tomsguide ♬ صدای اصلی – راهنمای تام
همکار من کیت کوزوچ قبلاً تجربه خود را با Project Astra در Google I/O شرح داده است، بنابراین سعی خواهم کرد آنچه را که در مورد هوش مصنوعی مبتنی بر دوربین بیدرنگ که از Gemini 1.5 برای تشخیص و دستکاری اشیا استفاده میکند، تکرار نکنم. این اطلاعات همه چیز را از بازی کردن تا کمک به شما در یافتن چیزها انجام می دهد. در حالی که برخی از قابلیتهای Project Astra قطعاً استدلال چندوجهی Gemini را از مطالعات تبلیغاتی نشان میدهد، توانایی ابزار هوش مصنوعی برای تشخیص اشیایی مانند سیب و بستنی و توصیف آنها با استفاده از توصیفهای مشابه مانند «میانوعدههای خوشمزه» شما را رها نمیکند. آینده ای هیجان انگیز هوش مصنوعی پر از همخوانی.
بازی Pictionary که ما با Project Astra بازی کردیم، جایی که هوش مصنوعی باید یک نقاشی را شناسایی می کرد، بسیار چشمگیرتر بود. این یک نسخه ی نمایشی آماده نبود، زیرا من باید برخی از طراحی را انجام می دادم، و Project Astra به طور دقیق طرح خوک را توصیف کرد، حتی اگر مهارت های طراحی من به بهترین وجه به عنوان “ترمیمی” توصیف می شود. هوش مصنوعی در شناسایی طرح خبرنگار دیگری از توتورو که حدس میزد جغد یا خرس بود کمتر موفق بود، اما خوب بود که پروژه Astra را برای خودمان آزمایش کنیم.
جنبه دیگری از Project Astra وجود دارد که توجه من را به خود جلب کرد. چیزهایی را به خاطر میآورد، خواه نام حیوانات عروسکی مختلف باشد که در نسخه نمایشی من نشان داده شدهاند یا بخشی از ویدیوی Project Astra در سخنرانی اصلی Google I/O که Gemini میتواند آن را بفهمد. کسی که عینکشون رو گذاشتن توانایی تشخیص اشیاء مختلف و قرار دادن آنها در زمینه یک چیز است. ذخیره این اطلاعات برای استفاده بعدی کاملاً چیز دیگری است.
تصویر 3
تجربه من با رندر مولد تا حد زیادی به ابزارهای رایگان با قابلیت های محدود محدود شده است. به همین دلیل است که با Imagen 3، ابزار هوش مصنوعی مولد Google که میتواند از پیامهای متنی برای ایجاد تصاویر از هوای رقیق استفاده کند، هیجانزده بودم. .
نسخه ی نمایشی گوگل شامل ایجاد حروف از حروف الفبا بود. این به معنای 26 نتیجه متفاوت بود که همگی بر اساس مدلهای مختلف بودند. در حالی که من نیاز داشتم پیام متنی اصلی را ارائه کنم – «ترشیها روی هم چیده شدهاند» سهم من بود – یکی از کارمندان Google پیامهای متنی دیگری برای تغییر ظاهر الفبای ترشی من ارائه کرد. نتیجه نوشتن نام من با ترشی چیزی است که برای مدت طولانی از آن لذت خواهم برد.
دی جی MusicFX
من با کمی دلهره وارد دموی دیجی MusicFX شدم، زیرا واقعاً به جلسه نمایشی/پردهبازی پیش از افتتاحیه یک نوازنده بداهه اهمیتی نمیدهم. (من می توانم خیلی چیزها را تحمل کنم، اما صدای بلند در ساعت 9:30 صبح یکی از آنها نیست.) همچنین، در حالی که می توانم مزایای استفاده از هوش مصنوعی را برای انجام کارهای خرخر کردن تکراری ببینم، در مورد آن کمی دوگانه هستم. استفاده در تجارت تلاش های خلاقانه
با این حال، زمانی که یک صفحه دیجی در جلوی خود دارید و شما هستید که ضربات را کنترل میکنید، استفاده از DJ MusicFX قطعا سرگرمکننده است. همکار من رایان موریسون در اوایل سال جاری پروژه را شرح داد، اما اساساً میتوانید از دستورات متنی برای ایجاد صدا استفاده کنید – Vinyl Scratch، Groovy Bass و Horn Chapter Hits از جمله مواردی بودند که من در دست داشتم. با استفاده از نوارهای لغزنده می توانم صدای خاصی را برجسته تر از سایرین ایجاد کنم.
این چیزی نیست که به نظر میرسد جایگزین خلق موسیقی واقعی شود، اما به نظر میرسد چیزی است که نوازندگان میتوانند به عنوان ابزاری برای الهام گرفتن از آن استفاده کنند یا معلمان میتوانند از آن برای آموزش به دانشآموزان خود استفاده کنند که چگونه یک آهنگ را کنار هم بچینند. و این زمانی است که یک نوازنده بداهه فریاد می زند “گوگل!” این خیلی بیشتر از فریاد زدن آرامش بخش است. قبل از اینکه قهوه صبح واقعاً تأثیر بگذارد بارها و بارها به تو نگاه می کردم.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide