من ویژگی مشاهده جدید ChatGPT را با 7 دستور آزمایش کردم. نتیجه این است که ذهن را متحیر می کند.

پروین میرمیران24 می 2024آخرین به روز رسانی: 24 می 2024

0 2,657 خواندن این مطلب 8 دقیقه زمان میبرد

برای سال‌ها، مدل‌های هوش مصنوعی می‌توانستند به تصاویر نگاه کنند و آنچه را که در تصویر می‌بینند به شما بگویند، اما OpenAI با به‌روزرسانی بهار خود همه چیز را به سطح جدیدی رسانده است.

با راه اندازی GPT-4o در ChatGPT، OpenAI یکی از بهترین مدل های بینایی هوش مصنوعی را که تا کنون منتشر شده است، حتی بدون عملکرد صوتی و تصویری معرفی کرده است.

موفقیت آن تا حدی به این دلیل است که به طور طبیعی چندوجهی است و درک عمیق تری از تصویر، ویدئو، صدا و متن دارد. می تواند در مورد یک تصویر، گفتار، ویدئو و متن استدلال کند، جایی که مدل های دیگر ابتدا به متن تبدیل می شوند.

برای آزمایش توانایی‌هایش، یک سری عکس به او دادم و از او خواستم آنچه را که می‌تواند ببیند، توصیف کند. هرچه دقیق تر باشد، مدل بهتر است. مدل‌های بینایی هوش مصنوعی، از جمله GPT-4، اغلب یک یا دو شی را از دست می‌دهند یا توضیحات را اشتباه می‌فهمند.

آزمایش نمای GPT-4o

برای هر آزمایش، تصویر ChatGPT-4o را ارسال کنید و “این چیست؟” من سوال را مطرح کردم. بدون هیچ زمینه یا اطلاعات اضافی. این به نحوه استفاده مردم از این توانایی در دنیای واقعی نزدیک‌تر است و من از آن در یک رویداد اخیر در پاریس استفاده کردم.

هدف این است که ببینید چقدر خوب تصویر را تجزیه و تحلیل می کنید. هر بار پیگیری می کردم تا بپرسم آیا می تواند تشخیص دهد که آیا تصویر توسط هوش مصنوعی ایجاد شده است یا خیر. همه با استفاده از Ideogram در توضیحات ایجاد شده توسط Claude 3 انجام شد. یعنی هوش کاملا مصنوعی.

پس از دو تصویر اول در مکالمه، به طور خودکار به من گفت که آیا تصویر بدون نیاز به درخواست من توسط هوش مصنوعی تولید شده است یا خیر.

من با برنامه دسکتاپ ChatGPT شروع کردم اما پاسخگو نبود بنابراین به وب منتقل شدم و به خوبی کار کرد.

1. تشخیص اشیاء

(اعتبار تصویر: Ideogram/تصویر هوش مصنوعی آینده)

برای اولین تصویر، تصویری از یک فنجان سرامیکی قرمز رنگ پر از قهوه بخار ایجاد کردم. آن را روی یک بشقاب روی میز چوبی یک کافه گذاشته بودند، اما کافه تار بود. هدف این است که ببینیم GPT-4o چگونه پس‌زمینه و سناریو را تفسیر می‌کند.

GPT-4o نوشت: «این تصویر یک فنجان قهوه بخار پز را در یک فنجان قرمز و نعلبکی روی یک میز چوبی روستایی نشان می دهد. پس‌زمینه محو است و محیط داخلی دنج را با افرادی که در یک کافه غار مانند یا یک فضای داخلی با طراحی منحصربه‌فرد با دیوارهای سنگی نشسته‌اند و گپ می‌زنند را به تصویر می‌کشد. تمرکز روی فنجان قهوه است و بر بخار ناشی از نوشیدنی داغ تأکید دارد.

این تا حد امکان دقیق و توصیفی است. من حتی از یک روایت ساده فراتر می روم و تصویری از صحنه جرم می کشم. برای سرگرمی از او پرسیدم: “افکار فردی را که پشت میز نشسته است و این قهوه آماده نوشیدن است را توصیف کنید.”

او با یک نمای کلی توصیفی زیبا پاسخ داد، اما این جمله برجسته بود: «این قهوه بیشتر از یک نوشیدنی است. این یک آیین است، لحظه ای ارزشمند از تنهایی و تأمل در میان شلوغی و شلوغی زندگی روزمره.»

2. تشخیص کاراکتر نوری (OCR)

تصویری Ideogram/Future AI

(اعتبار تصویر: Ideogram/تصویر هوش مصنوعی آینده)

OCR یک فناوری به قدمت محاسبات است، بنابراین برای هر مدل تصویری باید بی اهمیت باشد. حتی گوشی های هوشمند نیز این کار را روی دستگاه انجام می دهند. من یک عکس ساده از نمای نزدیک از یک تابلوی چوبی فرسوده به او دادم که روی آن نوشته شده بود “به اوکویل خوش آمدید” به سبک وینتیج و با حروف دستی. من چیزی بیش از متن از هوش مصنوعی می خواهم.

GPT-4o تحویل داده شد. text: “این تصویر تابلویی به ظاهر قدیمی را نشان می‌دهد که روی آن نوشته شده است: “به Oakville خوش آمدید.” این تابلو فرسوده به نظر می‌رسد، با پوششی روستایی و پریشان، که نشان می‌دهد برای مدتی در معرض عناصر قرار گرفته است. متن پررنگ، سفید روی آن است. یک پس‌زمینه قرمز با فونت نوشته شده است و نشانه‌هایی از ساییدگی را نشان می‌دهد که به جذابیت نوستالژیک آن می‌افزاید، این علامت تا حدی توسط شاخ و برگ احاطه شده است، که نشان می‌دهد ممکن است در فضای باز، احتمالاً در ورودی شهر یا جامعه‌ای به نام قرار گرفته باشد. اوکویل.

او نه تنها متن را به درستی خواند، بلکه جزئیات بیشتری در مورد مکان، احتمالاً شناسایی یک شهر یا شهرک و استخراج جزئیات علامت پیشنهاد داد.

3. تشخیص چهره

تصویری Ideogram/Future AI

(اعتبار تصویر: Ideogram/تصویر هوش مصنوعی آینده)

این یک استفاده بحث برانگیز از فناوری هوش مصنوعی است و تا حدی در اتحادیه اروپا ممنوع است. بنابراین GPT-4o چقدر می تواند چهره را شناسایی کند؟ این تصویر تصویری بود که توسط هوش مصنوعی زنی 40 ساله با موهای تیره و چشمان قهوه ای گرم تولید شده بود. لبخند دوستانه ای داشت.

GPT-4o آن را اینگونه توصیف کرد: «این تصویر یک پرتره نزدیک از یک زن خندان با موهای مجعد سیاه است. تمرکز بر روی صورت زن با نور خوب است که بافت و ویژگی های پوست را با جزئیات نشان می دهد. او حالتی دوستانه دارد زیرا چشمانش مستقیماً به دوربین نگاه می کند. سوژه با محو کردن پس‌زمینه تاکید می‌شود.»

من کمی بیشتر می خواستم، از جمله در حدود سن. از او پرسیدم: این شخص چند سال دارد و وضعیت عاطفی او چگونه است؟ من پرسیدم. او در پاسخ به اینکه در اواخر 30 سالگی تا اوایل 40 سالگی است و روحیه مثبتی دارد، توضیح داد: تصور کلی این است که او از نظر عاطفی در موقعیت خوبی قرار دارد، شاید احساس رضایت و راحتی داشته باشد.

4. تشخیص احساسات

تصویری Ideogram/Future AI

(اعتبار تصویر: Ideogram/تصویر هوش مصنوعی آینده)

بعد می‌خواستم ببینم GPT-4o با عکس پیرمردی با حالت غم‌انگیز چقدر خوب عمل می‌کند. آیا او این را می فهمد یا فقط صحنه را توصیف می کند؟ توجه داشته باشید که تنها ورودی آن “این چیست” و تصویر است.

GPT-4o کار خوبی انجام داد. او در مورد این عکس گفت: “این عکس پرتره مرد مسنی است که روی یک نیمکت در فضای باز نشسته است، احتمالاً در یک پارک. نور نشان می دهد که عکس در ساعت طلایی گرفته شده است، زیرا نور ملایم خورشید چهره او را روشن می کند. بیان متفکرانه است و حاوی اندکی از مالیخولیا یا متفکر بودن است.” “او یک پیراهن یقه دار و یک ژاکت می پوشد و پس زمینه تار است و توجه را به مرد معطوف می کند و در عین حال محیطی دلپذیر و طبیعی را فراهم می کند.”

مدل هوش مصنوعی دقیقاً همان کاری را انجام داد که من امیدوار بودم: صحنه را شناسایی کرد و پیشنهاداتی درباره احساس مرد در آن لحظه ارائه کرد.

5. حس صحنه

تصویری Ideogram/Future AI

(اعتبار تصویر: Ideogram/تصویر هوش مصنوعی آینده)

GPT-4o چقدر می تواند یک صحنه را در یک تصویر توصیف کند و چقدر می تواند عناصر داخل صحنه را شناسایی کند؟ این یک مهارت مفید است زیرا مدل سازی هوش مصنوعی به طور فزاینده ای برای کمک به توصیف دنیای واقعی استفاده می شود. این یکی از ویژگی های کلیدی حالت صوتی جدید در ChatGPT است.

GPT-4o اعلام کرد: “این تصویر یک بازار پر جنب و جوش کشاورزان در فضای باز را در یک روز آفتابی به تصویر می کشد. غرفه های مختلفی در زیر چادرها برپا شده است که محصولات تازه فراوانی از جمله میوه ها، سبزیجات و سایر محصولات را به نمایش می گذارند. مردم در بازار پرسه می زنند، در حال گشت و گذار، خرید و تعامل با فروشندگان هستند. به نظر می رسد این بازار در منطقه ای خوش آب و هوا واقع شده است که اطراف آن را درختان احاطه کرده است و برگ های سبز رنگ در پس زمینه آن نمایان است. “فضای پر جنب و جوش و مشارکتی با تمرکز بر محصولات محلی و تازه احساس می شود.”

چیز زیادی برای گفتن نیست شرح تصویر و وضعیت به درستی بود. جزئیات بیشتری از آنچه من انتظار داشتم ارائه کرد و برخی از موارد در فروش را برجسته کرد.

6. ارزیابی کیفیت تصویر

تصویری Ideogram/Future AI

(اعتبار تصویر: Ideogram/تصویر هوش مصنوعی آینده)

Ideogram چهار تصویر تقریباً یکسان را در یک شبکه ایجاد کرد، اما به هر کدام وضوح یا سطح ترکیب متفاوتی داد. می خواستم ببینم GPT-4o چگونه این را توصیف می کند. می تواند تصویر زیرین را کنترل کند، اما چهار مورد از آنها که هر کدام کمی متفاوت هستند چطور؟

GPT-4o نوشت: «تصویر مجموعه‌ای از چهار عکس منظره است که در یک شبکه چیده شده‌اند، که هر کدام منظره‌ای از تپه‌های غلتشی پوشیده از چمن سبز و گل‌های وحشی را در زیر آسمان ابری به نمایش می‌گذارند.» تا اینجای کار خیلی خوبه.

ادامه می‌دهد: «عکس در بالا سمت چپ، آسمانی ملایم صورتی و آبی را نشان می‌دهد که نشان‌دهنده سپیده‌دم یا غروب است، با تپه‌هایی غرق در نور گرم و طلایی که چمن سبز پر جنب و جوش و گل‌های زرد-سفید را برجسته می‌کند. عکس بالا سمت راست نشان می‌دهد. صحنه‌ای مشابه، اما رنگ‌های آن کم‌رنگ است، صبح زود یا اواخر بعد از ظهر، با رنگ‌های سردتر و آسمان آبی مشخص‌تر، نشان‌دهنده روشنایی نیمه‌روز و ملایم‌تر، با رنگ گرم‌تر و اشباع‌شده‌تر در آسمان است نور گرم یک غروب خورشید را تداعی می‌کند.

در حالی که هدف شبکه چهار تصویری (مقایسه ترکیب) را جلب نکرد، توانست هر یک را به صورت جداگانه شناسایی کند، که قابل توجه است. او در واقع مقایسه خودش را بین تصاویر انجام داد.

7. تشخیص چند شی

تصویری Ideogram/Future AI

(اعتبار تصویر: Ideogram/تصویر هوش مصنوعی آینده)

از او خواستم عینک مرا در عکس پیدا کند و او به درستی گفت: عینک شما بالای لپ تاپ، روی میز سمت راست لپ تاپ قرار گرفته است.

در نهایت، یک آزمون مهم برای اینکه آیا مدل می‌خواهد به عنوان ابزار دسترسی مفید باشد یا خیر، این است که چگونه اشیا را در صحنه‌های شلوغ تشخیص می‌دهد. همان سریع مانند دیگران. تصویر یک میز به هم ریخته را نشان می دهد و من انتظار دارم که او حداقل یک شی کوچک را بردارد.

GPT-4o نوشت: “تصویر یک فضای کاری مدرن و نامرتب را به تصویر می کشد که منظره شهر از طریق پنجره های بزرگ در پس زمینه قابل مشاهده است. یک محیط کاری سازنده شامل میز، لپ تاپ در مرکز، لامپ میز فلزی و لیوان قهوه است. چیدمان منظم با انواع اقلام معمولی، نشان‌دهنده فضایی آرام اما متمرکز، دفترچه‌ها و کاغذهای پراکنده نشان‌دهنده کار فعال و یادداشت برداری است، در حالی که یک گیاه کوچک در گلدان، رنگ سبزی را ایجاد می‌کند و احتمالاً یک انگیزه فضای کار به خوبی با لوازم اداری مانند خودکار، مداد و سازماندهی مجهز است که عملکردی را ارائه می دهد.

کار کرد. تصمیم گرفتم پیگیری کنم و از او بخواهم که رنگ قابلمه را به من بگوید و او درست متوجه شد. بنابراین از آن خواستم که عینک من را در تصویر پیدا کند و به درستی گفت: “عینک شما بالای یک لپ تاپ، روی میز سمت راست لپ تاپ قرار دارد.”

خلاصه

هر مدل دیدگاهی که در گذشته استفاده کرده‌ام حداقل یک اشتباه مرتکب شده است. معمولاً یک اشتباه بزرگ، مانند شناسایی اشتباه یک شی یا ناتوانی در تشخیص رنگ یا مارک.

GPT-4o هر یک از این موارد را به درستی شناسایی کرد. حرکت به سمت چندوجهی واقعی یک تغییر بازی برای OpenAI بوده است.

همچنین ارزش بالقوه عینک هوشمند را به عنوان آینده واقعی تعامل با داده ها نشان می دهد. تلفن هوشمند را فراموش کنید، بیایید از دید برای ترکیب واقعی و دیجیتال استفاده کنیم.