Grok جلب توجه می کند – چت ربات مبتنی بر X اکنون می تواند تصاویر را تجزیه و تحلیل کند
شرکت هوش مصنوعی ایلان ماسک xAI معرفی شد یک به روز رسانی بزرگ جدید برای دستیار هوش مصنوعی به نام Grok. آخرین نسخه اکنون دارای قابلیت های بصری است که به Grok اجازه می دهد تصاویر را در کنار توابع متن موجود تجزیه و تحلیل و درک کند.
Grok در حال حاضر میتواند تصاویر را با استفاده از مدل Flux آزمایشگاههای جنگل سیاه بسازد، و این آخرین محصول بزرگ چت هوش مصنوعی است که شامل تجزیه و تحلیل تصویر نیست، همچنین به عنوان دید هوش مصنوعی شناخته میشود.
با معرفی این ویژگی دید، Grok میتواند تصاویر مرتبط با پستهای پلتفرم X را تجزیه و تحلیل کند، محتوای بصری مانند اسناد، نمودارها و عکسها را تفسیر کند و روابط فضایی درون تصاویر را برای کمک به شناسایی بهتر محتوا درک کند.
میتوانید از آن برای پیدا کردن ایدههای دستور غذا بر اساس عکس مواد تشکیل دهنده، یافتن نشانک در عکسی که در X به اشتراک گذاشته شده است استفاده کنید، یا حتی نتایج یک نمودار را توضیح دهید. قسمت آخر می تواند به ویژه در پلتفرم خبری سنگین مانند Grok مفید باشد.
دید در گروک چگونه کار می کند؟
کاربران به زودی متوجه دکمه جدیدی در پست های حاوی تصاویر در پلتفرم X خواهند شد. پس از کلیک کردن، تصویر را به Grok ارسال میکند و به کاربران اجازه میدهد سوالاتی بپرسند یا درخواست تجزیه و تحلیل محتوای بصری کنند. همچنین می تواند برای کمک به شناسایی تصاویر برای افراد دارای مشکلات بینایی استفاده شود.
ما هنوز معیارهای رسمی را ندیدهایم، اما بر اساس قابلیتهای چشم انداز xAI Grok، نسبت به مدلهای شناخته شده OpenAI، Google و Anthropic برتری دارد. برای این منظور، این شرکت RealWorldQA را معرفی کرد، معیار جدیدی که برای ارزیابی توانایی مدل در درک و استدلال درباره دنیای فیزیکی از طریق تصاویر طراحی شده است.
این اعلامیه واکنشهای مختلفی را از سوی جامعه هوش مصنوعی و کاربران برانگیخت. در حالی که برخی از سرعت پیشرفت Grok هیجان زده بودند، برخی دیگر محتاط بودند و عملکرد آن را در برابر مدل های هوش مصنوعی مطرح زیر سوال بردند.
آینده گروک چیست؟
XAI ایلان ماسک دارای یک مرکز داده 200000 GPU است که تنها با هدف آموزش نسخه های آینده Grok ساخته شده است. فکر می کنم اشتباه نباشد اگر بگوییم در آینده شاهد چیزهای بزرگی از مدل خواهیم بود.
این ویژگی ها که به ویژه به توانایی های بصری مربوط می شود را می توان در ربات ها نیز گنجاند. ماسک همچنین مالک تسلا است که بخش روباتیک خود را دارد. همچنین ممکن است در آینده شاهد تجزیه و تحلیل ویدیویی و صوتی از Grok باشیم، زیرا این ویژگیها از قبل در Gemini و ChatGPT موجود هستند.
در حالی که این بهروزرسانی پیشرفت چشمگیری را برای Grok نشان میدهد، واضح است که این مدل در مقایسه با مدلهای هوش مصنوعی بالغتر مانند Gemini یا ChatGPT هنوز در دست توسعه است. مانند تمام فناوریهای هوش مصنوعی که به سرعت در حال تکامل هستند، ما باید هم قابلیتهای ارتقا یافته و هم ملاحظات اخلاقی این پیشرفتها را در ماههای آینده زیر نظر داشته باشیم.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide