من Apple Visual Intelligence را به عنوان راهنمای تور به یک گالری هنری بردم. اینطور شد
Apple Visual Intelligence به دارندگان آیفون 16 ابزاری راحت و همه کاره می دهد تا درباره دنیای اطراف خود اطلاعات بیشتری کسب کنند. دموهای ارائه شده توسط اپل در مراسم معرفی آیفون 16 در ماه سپتامبر، با نمونه هایی از شناسایی نژاد سگ یا یادگیری در مورد کنسرت از روی یک پوستر، این را نشان می دهد. تجربیات مشابه آزمایش های اولیه من با استفاده از iOS 18.2 بتا. اما برای آزمایش دقیقتر هوش بصری، تصمیم گرفتم جای دیگری را جستجو کنم.
اگر قرار است هوش بصری چیزهای ناآشنا پیش روی شما را به شما بگوید و زمینه ای را فراهم کند که در غیر این صورت نمی توانید به دست آورید، پس آزمایش آن بر روی برخی از تصاویر کاربردی ایده آل به نظر می رسد. نقاشی ها یک رسانه بصری هستند که می توان آن ها را از همه جهات بررسی کرد، اما نزدیک شدن به آن دشوار است مگر اینکه مدرک هنرهای زیبا داشته باشید. من سعی کردم با بازدید اخیر از گالری تیت بریتانیا در لندن، آن را تغییر دهم.
ماموریت من یافتن و تجربه یک نمایشگاه خاص در گالری بود به این امید که هوش بصری کمک کند تا سفر به روزی آسان اما روشنگر تبدیل شود. اگرچه هنری مانند این ممکن است به مذاق همه خوش نیاید، اما این چیزی است که من و بسیاری دیگر می خواهیم درباره آن بیشتر بدانیم. و شاید این چیزی باشد که Apple Intelligence می تواند به آن کمک کند.
خواندن نقشه با هوش بصری
وقتی وارد تیت بریتانیا شدم، کارهای بدیهی را انجام دادم و به دنبال نقشهای گشتم که مرا به سمت هنرمندی که میخواستم بخوانم هدایت کند: نقاش رمانتیک بریتانیایی JMW Turner. خوشبختانه، خواندن و رمزگشایی این نقشه به تنهایی آسان بود، اما به هر حال آیفون را به سمت آن نشانه رفتم. اگر این نقشه به زبان یا الفبای دیگری بود، قطعاً برای خواندن آن به کمک نیاز داشتم، و اینجا بود که امیدوار بودم هوش بصری بتواند وارد عمل شود.
خوشبختانه برای من، این نقشه به صورت عمودی جهت مطابقت با نمای پرتره مورد انتظار هوش بصری بود. پس از گرفتن عکس، آیفون به سرعت بیشتر (و نه همه) متن روی علامت را تشخیص داد. از آنجا، من دو گزینه عملی داشتم: از Apple Intelligence علامت را برای من توضیح دهد، یا آن را با استفاده از دکمه “پرسش” به ChatGPT ارسال کنید.
Apple Intelligence گزینه ای را برای خلاصه کردن متن و همچنین استخراج تاریخ 16 فوریه 2025 (تاریخ پایان یک نمایشگاه موقت) ارائه کرد. خلاصه میتوانست نام گالری، تعدادی از هنرمندان کلیدی آن و چند مکان را که میتوانم از آن بازدید کنم، به من بگوید. همه چیزهای مفیدی وجود دارد که باید بدانم، اما آنها به من کمک نمی کنند تا به نمودارهای ترنر برسم.
سپس ChatGPT را امتحان کردم. عجیب است که او نمی توانست دقیقاً به من بگوید که کجا هستم، فقط این که یک موزه هنر بریتانیا و یک نقشه است. خوشبختانه، من توانستم سؤالات بعدی را بپرسم و بپرسم که در کجا می توانم نمایشگاه ترنر را پیدا کنم. ChatGPT توانست نشان دهد که تصاویر در گوشه سمت راست پایین نقشه قرار دارند، اما شماره اتاق ها را اشتباه خوانده بود و تمام اتاق هایی که بخشی از نمایشگاه بودند را شامل نمی شد. اشتباه بزرگی نیست، اما اشتباهی که اگر از ابتدا نمی توانستم نقشه را بخوانم می توانست باعث سردرگمی شود.
تعریف هنرمند با هوش بصری
هنگامی که وارد نمایشگاه می شوید با یکی از مشهورترین پرتره های ترنر روبرو می شوید – هدف اصلی هوش بصری. ChatGPT بلافاصله او را شناسایی کرد و برخی اطلاعات مرتبط را ارائه کرد.
من همچنین عملکرد جستجو (یک میانبر مؤثر برای Google Lens) را امتحان کردم که هم کار کرد و نتایج را برای آن تصویر دقیق به صورت آنلاین به من نشان داد. با ضربه زدن به یکی از این نتایج، یک مرورگر پاپ آپ روی رابط هوش بصری باز می شود، که خوب کار می کند، اما ترجیح می دادم چیزها در داخل Visual Intelligence باقی بمانند یا من را مستقیماً به برنامه کامل مرورگر خود ببرم تا این نیمه راه حل. .
محدودیت های زوم هوش بصری
انتقاد من وقتی برای اولین بار هوش بصری اپل را امتحان کردم این بود که فقط می تواند زوم دیجیتال انجام دهد. حتی با وجود اینکه یک دوربین تله فوتو عالی 5x بر روی خود داشتم، آیفون 16 پرو مکسی که همراه داشتم توسط هوش بصری پشتیبانی نمی شد. و این واقعیت در تیت بریتانیا ناامید کننده تر شد.
خواندن علائم کنار هر جدول از فاصله دور آسان است، اما اگر سعی کنید کل پانل را در منظره یاب هوش بصری ببینید، در نهایت با یک آشفتگی تار مواجه خواهید شد.
من مجبور شدم درست مقابل دیوار بایستم تا نمای واضحی از علامتی که داپلگانجر می توانست خلاصه کند، ببینم. او این کار را به خوبی انجام داد، البته با جزئیات بسیار کمی برای سلیقه من. اما اگر مانعی بین من و دیوار وجود داشته باشد، یا یک نگهبان ناآرام فکر کند که چرا میخواهم اینقدر به این شاهکارهای 200 ساله نزدیک شوم، مشکل ساز میشود.
بررسی دقت با هوش بصری
یکی از معروف ترین نقاشی های ترنر در این گالری قلعه نورهام، طلوع آفتابتصویری چشمگیر و تقریباً انتزاعی از یک قلعه در شمال شرقی انگلستان. از یک تابلوی نزدیک متوجه شدم که این تابلو بر اساس چاپی است که ترنر در اصل برای یک کتاب ساخته بود، نه اینکه از ابتدا نقاشی شده باشد. این یک واقعیت جالب به نظر می رسید، بنابراین من بررسی کردم که آیا هوش بصری می تواند در مورد آن به من بگوید یا خیر.
عملکرد جستجو خیلی مفید نبود. فقط نتایج بصری را بدون هیچ گزینه ای برای اصلاح پرس و جو ارائه می کرد. در همین حال، ChatGPT برای شناسایی درست نقاشی از دو درخواست استفاده کرد و وقتی از من پرسیدم به من گفت که تصویر بر اساس قلعه ساخته شده است.
با درک اینکه احتمالاً سوال من در این مورد خیلی مبهم بود، به طور خاص تر پرسیدم که آیا این نقاشی بر اساس کتابی است یا خیر، در آن نقطه ChatGPT رابطه بین چاپ و نقاشی را توضیح داد. در نهایت به جایی رسیدم که باید باشم، اما فقط به این دلیل که می دانستم در ابتدا هدف نهایی چیست.
شناخت آثار کمتر شناخته شده با هوش بصری
در حالی که نتایج جستجوی گوگل آنقدر که می توانید از ChatGPT دریافت کنید همه کاره نیستند، برخلاف ربات چت، 100٪ دقیق است. به عنوان مثال، وقتی به یک اثر کمتر شناخته شده ترنر نگاه می کنیم، کاشت شلغم در نزدیکی اسلاوعملکرد جستجو به طور دقیق نتایج منطبق را به صورت آنلاین پیدا کرد. وقتی از دکمه Ask در ChatGPT استفاده کردم، هنرمند و سپس نقاشی را اشتباه شناسایی کرد، حتی اگر گفتم این اثر ترنر است.
این یک محدودیت عمده در ادغام ChatGPT با Apple Intelligence را نشان می دهد. هر مکالمه یک تعامل کاملا جداگانه است. اگر کاری مشابه را از طریق برنامه اختصاصی ChatGPT انجام دهید، برنامه میتواند پیامهای قبلی شما را هنگام پاسخ دادن به سؤالات بعدی در ذهن نگه دارد. اما برای کاربران معمولی آیفون 16 که میخواهند هوش بصری را بدون ثبت نام برای هیچ چیز اضافی امتحان کنند، این بدان معناست که با هر تصویر جدیدی که میگیرید، از ابتدا شروع میکنید و باید بارها و بارها روی گوشی حاشیهنویسی کنید.
داستان ها را با هوش بصری به اشتراک بگذارید
نقاشی مورد علاقه من در این گالری آویزان است regulusنه فقط به این دلیل که باورنکردنی به نظر می رسید، بلکه به دلیل افسانه ای که در مورد آن وجود دارد – ترنر به طور تصادفی به بوم چاقو زد زیرا سعی داشت خورشید را کورکورانه سفید کند.
این دقیقاً همان داستانی است که شما امیدوارید داپلگانگر درباره یک نقاشی برای شما تعریف کند، بنابراین از او خواستم که درباره نقاشی به من بگوید. پس از شروع اشتباهی که در آن او مکان نقاشی را به جای کارتاژ با ونیز اشتباه گرفت، در نهایت با پرسیدن سؤالاتی به طور خاص در مورد آسیب هایی که نقاشی در طول خلقش متحمل شده بود، به داستانی که می خواستم رسیدم. سوال پرسیدن درباره اطلاعات کلی یا آسیب به طور کلی تر، داستانی را که می خواستم به من نداد.
توضیح روابط با هوش بصری
یکی از آخرین آزمایشهایی که برای هوش بصری انجام دادم، توضیح این بود که چرا نقاشیهای هنرمند دیگری (جان کنستبل) در همان قسمت موزه آویزان شده بود. گوگل فوراً جدول را شناسایی کرد، اما پیوندها فقط نتایج مربوط به آن جدول را نشان دادند، که به این سوال که چرا به طور خاص در آنجا آویزان شده بود کمکی نکرد.
یک بار دیگر، ChatGPT توجه بیشتری را برای شناختن نقاشی و خالق آن جلب کرد، اما توانست ارتباط زمانی و سبکی بین ترنر و پاسبان را توضیح دهد، و اساساً همان توضیحی را که گالری روی تابلویی در ورودی آن اتاق داده بود، ارائه داد. .
یک عکس ارزش هزاران درخواست را دارد
تجربه آزمایشی هوش بصری من در تیت بریتانیا به من نشان داد که سه مؤلفه اصلی که این ویژگی را تشکیل میدهند – روشی که خود هوش بصری اطلاعات را جذب میکند و همچنین هستههای مبتنی بر Google و ChatGPT که محتوای واقعی را ارائه میکنند – کاملاً در دسترس هستند. سطوح مختلف کفایت اما با هم می توانند مقدار نسبتاً دقیقی از اطلاعات کلی را ارائه دهند. این مثل این نیست که یک موزه دار در جیب خود داشته باشید و بیشتر شبیه یک عموی دانا است که تمایل دارد یک کلاس هنری را که یک بار در کالج خوانده است به اشتباه به خاطر بیاورد تا زمانی که او را اصلاح کنید.
اول از همه، هوش بصری خود ثابت کرده است که به لطف تشخیص متن، قابلیتهای خلاصه و قابلیت ادغام با سایر برنامههای اپل، استفاده از آن آسان و بدون هیچ سرویس دیگری مفید است. با این حال، زمانی که نمی توانید به سوژه خود نزدیک شوید، واقعاً باید با دوربین های زوم اپتیکال کار کند. همچنین به ارائه گزینه های بیشتر و گسترده تر برای نحوه کاوش یک تصویر فراتر از دو سرویس موجود که به آن متصل است کمک می کند.
من فکر می کنم نتایج جستجوی گوگل قابل اعتمادترین در مجموعه هوش بصری است، اما کمترین یکپارچگی را نیز دارد. این میتواند مانعی باشد که نتایج اغلب فقط تصاویر هستند، که عجیب است وقتی یک جستجوی معمولی Google در یک مرورگر خوشحال میشود که خلاصهای از هوش مصنوعی یا گزیدهای از متن برجسته را ارائه دهد تا شما را از آنچه به دنبال آن هستید مطلع کند.
در نهایت، ما ChatGPT را داریم، که میتواند از داشتن یک پنجره زمینه بزرگتر برای توضیح موارد بیشتر در چند عکس، به جای نیاز به تغییر مسیر مکرر بهره ببرد. شاید برای جبران هزینههای سرور ChatGPT با اپل که خدمات خود را به صورت رایگان به کاربران آیفون 16 ارائه میکند، این اتفاق نیفتد، اما همچنان در لیست آرزوهای من است. دقت بیشتر، یا شاید گزینه گنجاندن اطلاعات نوشتاری همراه با تصویر در اولین درخواست، همچنین می تواند به تمرکز سریعتر نتایج بر روی آنچه نیاز دارید کمک کند.
هوش بصری به عنوان یک ابزار یادگیری نشان داده است که پتانسیل بالایی دارد و اگر اپل بتواند این پتانسیل را با بهروزرسانیهای آیاواس و نسلهای سختافزاری آینده توسعه دهد، دارندگان آیفون میتوانند یکی از بهترین ابزارهای آموزشی موجود را داشته باشند. اما در حال حاضر، و شاید برای مدت طولانی در آینده، هنوز سریعتر است که به دنبال نشانه ای بگردید یا از یک متخصص نزدیک بخواهید تا خلاصه ای دقیق از یک نقاشی را به دست آورد تا اینکه به طور مکرر ChatGPT را برای نامگذاری درست هنرمند مطرح کنید.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide