من ویژگی مشاهده جدید ChatGPT را با 7 دستور آزمایش کردم. نتیجه این است که ذهن را متحیر می کند.
برای سالها، مدلهای هوش مصنوعی میتوانستند به تصاویر نگاه کنند و آنچه را که در تصویر میبینند به شما بگویند، اما OpenAI با بهروزرسانی بهار خود همه چیز را به سطح جدیدی رسانده است.
با راه اندازی GPT-4o در ChatGPT، OpenAI یکی از بهترین مدل های بینایی هوش مصنوعی را که تا کنون منتشر شده است، حتی بدون عملکرد صوتی و تصویری معرفی کرده است.
موفقیت آن تا حدی به این دلیل است که به طور طبیعی چندوجهی است و درک عمیق تری از تصویر، ویدئو، صدا و متن دارد. می تواند در مورد یک تصویر، گفتار، ویدئو و متن استدلال کند، جایی که مدل های دیگر ابتدا به متن تبدیل می شوند.
برای آزمایش تواناییهایش، یک سری عکس به او دادم و از او خواستم آنچه را که میتواند ببیند، توصیف کند. هرچه دقیق تر باشد، مدل بهتر است. مدلهای بینایی هوش مصنوعی، از جمله GPT-4، اغلب یک یا دو شی را از دست میدهند یا توضیحات را اشتباه میفهمند.
آزمایش نمای GPT-4o
برای هر آزمایش، تصویر ChatGPT-4o را ارسال کنید و “این چیست؟” من سوال را مطرح کردم. بدون هیچ زمینه یا اطلاعات اضافی. این به نحوه استفاده مردم از این توانایی در دنیای واقعی نزدیکتر است و من از آن در یک رویداد اخیر در پاریس استفاده کردم.
هدف این است که ببینید چقدر خوب تصویر را تجزیه و تحلیل می کنید. هر بار پیگیری می کردم تا بپرسم آیا می تواند تشخیص دهد که آیا تصویر توسط هوش مصنوعی ایجاد شده است یا خیر. همه با استفاده از Ideogram در توضیحات ایجاد شده توسط Claude 3 انجام شد. یعنی هوش کاملا مصنوعی.
پس از دو تصویر اول در مکالمه، به طور خودکار به من گفت که آیا تصویر بدون نیاز به درخواست من توسط هوش مصنوعی تولید شده است یا خیر.
من با برنامه دسکتاپ ChatGPT شروع کردم اما پاسخگو نبود بنابراین به وب منتقل شدم و به خوبی کار کرد.
1. تشخیص اشیاء
برای اولین تصویر، تصویری از یک فنجان سرامیکی قرمز رنگ پر از قهوه بخار ایجاد کردم. آن را روی یک بشقاب روی میز چوبی یک کافه گذاشته بودند، اما کافه تار بود. هدف این است که ببینیم GPT-4o چگونه پسزمینه و سناریو را تفسیر میکند.
GPT-4o نوشت: «این تصویر یک فنجان قهوه بخار پز را در یک فنجان قرمز و نعلبکی روی یک میز چوبی روستایی نشان می دهد. پسزمینه محو است و محیط داخلی دنج را با افرادی که در یک کافه غار مانند یا یک فضای داخلی با طراحی منحصربهفرد با دیوارهای سنگی نشستهاند و گپ میزنند را به تصویر میکشد. تمرکز روی فنجان قهوه است و بر بخار ناشی از نوشیدنی داغ تأکید دارد.
این تا حد امکان دقیق و توصیفی است. من حتی از یک روایت ساده فراتر می روم و تصویری از صحنه جرم می کشم. برای سرگرمی از او پرسیدم: “افکار فردی را که پشت میز نشسته است و این قهوه آماده نوشیدن است را توصیف کنید.”
او با یک نمای کلی توصیفی زیبا پاسخ داد، اما این جمله برجسته بود: «این قهوه بیشتر از یک نوشیدنی است. این یک آیین است، لحظه ای ارزشمند از تنهایی و تأمل در میان شلوغی و شلوغی زندگی روزمره.»
2. تشخیص کاراکتر نوری (OCR)
OCR یک فناوری به قدمت محاسبات است، بنابراین برای هر مدل تصویری باید بی اهمیت باشد. حتی گوشی های هوشمند نیز این کار را روی دستگاه انجام می دهند. من یک عکس ساده از نمای نزدیک از یک تابلوی چوبی فرسوده به او دادم که روی آن نوشته شده بود “به اوکویل خوش آمدید” به سبک وینتیج و با حروف دستی. من چیزی بیش از متن از هوش مصنوعی می خواهم.
GPT-4o تحویل داده شد. text: “این تصویر تابلویی به ظاهر قدیمی را نشان میدهد که روی آن نوشته شده است: “به Oakville خوش آمدید.” این تابلو فرسوده به نظر میرسد، با پوششی روستایی و پریشان، که نشان میدهد برای مدتی در معرض عناصر قرار گرفته است. متن پررنگ، سفید روی آن است. یک پسزمینه قرمز با فونت نوشته شده است و نشانههایی از ساییدگی را نشان میدهد که به جذابیت نوستالژیک آن میافزاید، این علامت تا حدی توسط شاخ و برگ احاطه شده است، که نشان میدهد ممکن است در فضای باز، احتمالاً در ورودی شهر یا جامعهای به نام قرار گرفته باشد. اوکویل.
او نه تنها متن را به درستی خواند، بلکه جزئیات بیشتری در مورد مکان، احتمالاً شناسایی یک شهر یا شهرک و استخراج جزئیات علامت پیشنهاد داد.
3. تشخیص چهره
این یک استفاده بحث برانگیز از فناوری هوش مصنوعی است و تا حدی در اتحادیه اروپا ممنوع است. بنابراین GPT-4o چقدر می تواند چهره را شناسایی کند؟ این تصویر تصویری بود که توسط هوش مصنوعی زنی 40 ساله با موهای تیره و چشمان قهوه ای گرم تولید شده بود. لبخند دوستانه ای داشت.
GPT-4o آن را اینگونه توصیف کرد: «این تصویر یک پرتره نزدیک از یک زن خندان با موهای مجعد سیاه است. تمرکز بر روی صورت زن با نور خوب است که بافت و ویژگی های پوست را با جزئیات نشان می دهد. او حالتی دوستانه دارد زیرا چشمانش مستقیماً به دوربین نگاه می کند. سوژه با محو کردن پسزمینه تاکید میشود.»
من کمی بیشتر می خواستم، از جمله در حدود سن. از او پرسیدم: این شخص چند سال دارد و وضعیت عاطفی او چگونه است؟ من پرسیدم. او در پاسخ به اینکه در اواخر 30 سالگی تا اوایل 40 سالگی است و روحیه مثبتی دارد، توضیح داد: تصور کلی این است که او از نظر عاطفی در موقعیت خوبی قرار دارد، شاید احساس رضایت و راحتی داشته باشد.
4. تشخیص احساسات
بعد میخواستم ببینم GPT-4o با عکس پیرمردی با حالت غمانگیز چقدر خوب عمل میکند. آیا او این را می فهمد یا فقط صحنه را توصیف می کند؟ توجه داشته باشید که تنها ورودی آن “این چیست” و تصویر است.
GPT-4o کار خوبی انجام داد. او در مورد این عکس گفت: “این عکس پرتره مرد مسنی است که روی یک نیمکت در فضای باز نشسته است، احتمالاً در یک پارک. نور نشان می دهد که عکس در ساعت طلایی گرفته شده است، زیرا نور ملایم خورشید چهره او را روشن می کند. بیان متفکرانه است و حاوی اندکی از مالیخولیا یا متفکر بودن است.” “او یک پیراهن یقه دار و یک ژاکت می پوشد و پس زمینه تار است و توجه را به مرد معطوف می کند و در عین حال محیطی دلپذیر و طبیعی را فراهم می کند.”
مدل هوش مصنوعی دقیقاً همان کاری را انجام داد که من امیدوار بودم: صحنه را شناسایی کرد و پیشنهاداتی درباره احساس مرد در آن لحظه ارائه کرد.
5. حس صحنه
GPT-4o چقدر می تواند یک صحنه را در یک تصویر توصیف کند و چقدر می تواند عناصر داخل صحنه را شناسایی کند؟ این یک مهارت مفید است زیرا مدل سازی هوش مصنوعی به طور فزاینده ای برای کمک به توصیف دنیای واقعی استفاده می شود. این یکی از ویژگی های کلیدی حالت صوتی جدید در ChatGPT است.
GPT-4o اعلام کرد: “این تصویر یک بازار پر جنب و جوش کشاورزان در فضای باز را در یک روز آفتابی به تصویر می کشد. غرفه های مختلفی در زیر چادرها برپا شده است که محصولات تازه فراوانی از جمله میوه ها، سبزیجات و سایر محصولات را به نمایش می گذارند. مردم در بازار پرسه می زنند، در حال گشت و گذار، خرید و تعامل با فروشندگان هستند. به نظر می رسد این بازار در منطقه ای خوش آب و هوا واقع شده است که اطراف آن را درختان احاطه کرده است و برگ های سبز رنگ در پس زمینه آن نمایان است. “فضای پر جنب و جوش و مشارکتی با تمرکز بر محصولات محلی و تازه احساس می شود.”
چیز زیادی برای گفتن نیست شرح تصویر و وضعیت به درستی بود. جزئیات بیشتری از آنچه من انتظار داشتم ارائه کرد و برخی از موارد در فروش را برجسته کرد.
6. ارزیابی کیفیت تصویر
Ideogram چهار تصویر تقریباً یکسان را در یک شبکه ایجاد کرد، اما به هر کدام وضوح یا سطح ترکیب متفاوتی داد. می خواستم ببینم GPT-4o چگونه این را توصیف می کند. می تواند تصویر زیرین را کنترل کند، اما چهار مورد از آنها که هر کدام کمی متفاوت هستند چطور؟
GPT-4o نوشت: «تصویر مجموعهای از چهار عکس منظره است که در یک شبکه چیده شدهاند، که هر کدام منظرهای از تپههای غلتشی پوشیده از چمن سبز و گلهای وحشی را در زیر آسمان ابری به نمایش میگذارند.» تا اینجای کار خیلی خوبه.
ادامه میدهد: «عکس در بالا سمت چپ، آسمانی ملایم صورتی و آبی را نشان میدهد که نشاندهنده سپیدهدم یا غروب است، با تپههایی غرق در نور گرم و طلایی که چمن سبز پر جنب و جوش و گلهای زرد-سفید را برجسته میکند. عکس بالا سمت راست نشان میدهد. صحنهای مشابه، اما رنگهای آن کمرنگ است، صبح زود یا اواخر بعد از ظهر، با رنگهای سردتر و آسمان آبی مشخصتر، نشاندهنده روشنایی نیمهروز و ملایمتر، با رنگ گرمتر و اشباعشدهتر در آسمان است نور گرم یک غروب خورشید را تداعی میکند.
در حالی که هدف شبکه چهار تصویری (مقایسه ترکیب) را جلب نکرد، توانست هر یک را به صورت جداگانه شناسایی کند، که قابل توجه است. او در واقع مقایسه خودش را بین تصاویر انجام داد.
7. تشخیص چند شی
در نهایت، یک آزمون مهم برای اینکه آیا مدل میخواهد به عنوان ابزار دسترسی مفید باشد یا خیر، این است که چگونه اشیا را در صحنههای شلوغ تشخیص میدهد. همان سریع مانند دیگران. تصویر یک میز به هم ریخته را نشان می دهد و من انتظار دارم که او حداقل یک شی کوچک را بردارد.
GPT-4o نوشت: “تصویر یک فضای کاری مدرن و نامرتب را به تصویر می کشد که منظره شهر از طریق پنجره های بزرگ در پس زمینه قابل مشاهده است. یک محیط کاری سازنده شامل میز، لپ تاپ در مرکز، لامپ میز فلزی و لیوان قهوه است. چیدمان منظم با انواع اقلام معمولی، نشاندهنده فضایی آرام اما متمرکز، دفترچهها و کاغذهای پراکنده نشاندهنده کار فعال و یادداشت برداری است، در حالی که یک گیاه کوچک در گلدان، رنگ سبزی را ایجاد میکند و احتمالاً یک انگیزه فضای کار به خوبی با لوازم اداری مانند خودکار، مداد و سازماندهی مجهز است که عملکردی را ارائه می دهد.
کار کرد. تصمیم گرفتم پیگیری کنم و از او بخواهم که رنگ قابلمه را به من بگوید و او درست متوجه شد. بنابراین از آن خواستم که عینک من را در تصویر پیدا کند و به درستی گفت: “عینک شما بالای یک لپ تاپ، روی میز سمت راست لپ تاپ قرار دارد.”
خلاصه
هر مدل دیدگاهی که در گذشته استفاده کردهام حداقل یک اشتباه مرتکب شده است. معمولاً یک اشتباه بزرگ، مانند شناسایی اشتباه یک شی یا ناتوانی در تشخیص رنگ یا مارک.
GPT-4o هر یک از این موارد را به درستی شناسایی کرد. حرکت به سمت چندوجهی واقعی یک تغییر بازی برای OpenAI بوده است.
همچنین ارزش بالقوه عینک هوشمند را به عنوان آینده واقعی تعامل با داده ها نشان می دهد. تلفن هوشمند را فراموش کنید، بیایید از دید برای ترکیب واقعی و دیجیتال استفاده کنیم.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide