من نانو موز را با ChatGPT Images 2.0 آزمایش کردم – در اینجا برنده شگفتی است

مبارزه هوش مصنوعی برای تسلط بر تصویر این است که “آیا واقعا می تواند یک دست بکشد؟” خیلی فراتر از مشکل قدیمی رفته است. دوران اعداد تصادفی و دست و پاهای نابجا گذشته است. اکنون آزمون واقعی این است که آیا یک مدل می تواند مانند یک هنرمند فکر کند یا خیر. در این نبرد رو در رو، OpenAI ChatGPT Images 2.0 منطق محور OpenAI در هفت چالش چالش برانگیز با قدرت جستجوی سرعت و جستجوی گوگل، Nano Banana 2 روبرو می شود.
هر دو مدل با چالشبرانگیزتر شدن هر دور، از ثبت فیزیک پاشیدن جیوه گرفته تا اجرای داستانگویی بصری یک جشن تولد پر از سگ، به محدودیتهای خود کشیده شدند. هدف این بود که بفهمیم کدام رندر واقعاً بر محیط تولید فعلی تسلط دارد. در اینجا نحوه عملکرد هر مدل و برنده نهایی آمده است.
1. ایجاد و طرح بندی متن خوب
سریع: “یک قفسه داروخانه قدیمی با 12 ویال شیشهای که با خطی دستنویس برچسبگذاری شده است، که هر کدام یک داروی تخیلی متفاوت را نام میبرند (مثلاً “تنتور مهتاب”، “جوهر چهارشنبههای فراموش شده”). نور بعد از ظهر گرم، عمق میدان کم.”
مقاله در زیر ادامه دارد
تصاویر ChatGPT 2.0 فضای اعلان را میخکوب کرد. نور گرم بعد از ظهر واقعاً گرم است و حال و هوای آن به طور قانع کننده ای “داروپزشکی قدیمی” است.
نانو موز 2 با نور صاف تر و یکنواخت تر که به وضوح قسمت بیشتری از قفسه را نشان می دهد.
برنده: ChatGPT برنده می شود برای پیگیری دقیق تر اعلان و در صحت فنی، دقت نور و خوانایی متن. از نظر عکاسی تصویر دقیق تری ارائه می کرد.
2. روابط پیچیده فضایی
سریع: “نمودار بریده یک ساعت جیبی مکانیکی به اندازه یک کلبه کوچک، با مهندسان انسانی کوچکی که روی چرخ دنده ها تعمیر و نگهداری می کنند. برخی در داخل، برخی در خارج، با نردبان های طنابی که آنها را به هم متصل می کنند.”
ChatGPT برچسبهای قابل خواندن، نمودارهای کوچک جایزه هر طبقه و شرایط دقیق ساعتسازی. جزئیات و دقت خیره کننده بود.
نانو موز او تصویری پر جنب و جوش و نقاشی ایجاد کرد که به هر نشانه فضایی (کلبه برای مقیاس، مهندسان در داخل و خارج، نردبان طناب در همه جا) می پرداخت و شامل متن برچسب واضح بود، اما کمتر واقع گرایانه به نظر می رسید.
برنده: ChatGPT برنده می شود برای حل واقعاً سریع روابط فضایی، با نمودارهای کوچک که ارزش افزوده برای ارائه تصویری بهتر دارد.
3. فیزیک مواد و نور
سریع: “یک قطره جیوه که بر روی سطح مرمر سیاه فرود آمد دقیقا در لحظه برخورد ثبت شد. نور استودیو از بالا سمت چپ، با انعکاس از یک پنجره”
ChatGPT با یک ستون بالارونده و قطره آویزان، با رگههای مرمری زیبا و حس عکاسی باورپذیرتر، آن لحظه بازگشت نمادین سقوط را ثبت کرد. اما انعکاس پنجره را که در اعلان می خواستم کاملاً نادیده گرفت.
نانو موز او با یک تاج دراماتیکتر و نور جهتدار قویتر، انعکاس پنجره را روی کره و روی سنگ مرمر خیس زیر میخ میکند.
برنده: نانو موز برنده می شود زیرا انعکاس پنجره یک نیاز فوری خاص بود و ChatGPT کاملاً آن را نادیده گرفت.
4. دست های تحت فشار و آناتومی
سریع: نمای نزدیک از دستان ویولونیست در وسط اجرا؛ هر ده انگشت و دست چپ در حال فشردن سیم های روی صفحه انگشتی دیده می شود در حالی که دست راست در حال کشیدن کمان دیده می شود. گرد و غبار رزین در هوا دیده می شود.
ChatGPT او با نورپردازی تاریک استودیویی و پودر رزین قابل مشاهده تصویری دراماتیک خلق کرد که نور را به زیبایی به تصویر کشید. دستگیره دستی کمان از نظر فنی درست به نظر می رسد.
نانو موز دستهای تمیز آناتومیکی با در نظر گرفتن هر ده انگشت ایجاد شدهاند، دسته کمان درست است، دست چپ در موقعیت نوازندگی قانعکنندهای روی کیبورد قرار دارد، و تار شدن مخاطبان و زمینه سالن کنسرت جو را ایجاد میکند.
برنده: نانو موز برنده می شود از آنجایی که تمام هدف این دستور آزمایش دستها در شرایط استرس بود، اطمینان حاصل شود که ده انگشت صحیح در موقعیتهای بازی قابلاعتماد ارائه میشوند و در عین حال پرسپکتیو نیز اضافه میشود.
5. سبک خلاقیت ترکیبی
سریع: “تصویری به سبک استودیو گیبلی از یک بازار شلوغ کشاورز در مریخ، جایی که انسان ها و فروشندگان بیگانه دوستدار میوه های درخشان، سبزیجات شناور، و سحابی های بطری شده می فروشند. زمین در مقابل آسمان صورتی با حس شگفتی و جزئیات گرم هایائو میازاکی قابل مشاهده است.”
ChatGPT صحنه ای پر جنب و جوش و پرجمعیت را با سبک تصویرسازی معتبر الهام گرفته از گیبلی و جزئیات هوشمندانه ساخت جهان ارائه کرد.
نانو موز اتمسفر غبارآلود مریخ را در یک منظره قرمز متمایزتر به تصویر کشید. زمینی را ایجاد کرد که در مقابل آسمان صورتی به زیبایی خودنمایی می کند و سبک تصویرسازی کتاب داستان ملایم تری دارد.
برنده: ChatGPT برنده می شود از آنجا که درخواست برای یک «بازار کشاورزان شلوغ» با «شخصیتها و وسایل کوچک بسیار» فراخوان میشد، و ChatGPT صحنهای را ارائه میکرد که در واقع در حال آزمایش آن بود.
6. فضای منفی و مینیمالیسم
سریع:”یک جرثقیل اوریگامی منفرد بر روی یک سطح سفید بی پایان، اما سایه جرثقیل شبیه یک عقاب در حال پرواز واقعی است. هیچ آیتم دیگری در قاب وجود ندارد.”
ChatGPT یک جرثقیل اوریگامی مرتب و خوب تا شده با سایهای نرم و باورنکردنی در زیر آن، جفت شده با یک سایه عقاب با جزئیات پرهای قابل مشاهده در نوک بالها.
نانو موز ترکیب بندی مینیمالیستی تر با فضای منفی دراماتیک تر و شبح عقاب با جزئیات دقیق تر با پرهای نوک بال تیز ارائه می کرد.
برنده: ChatGPT این برنده شد زیرا سایه عقاب واضح تر از خود جرثقیل پخش شد و به تحول مفهومی تمیزتر دست یافت.
7. روایت در یک قاب
سریع: “عکسی که یک داستان کامل را روایت می کند: جشن تولد یک کودک، که در آن هر مهمان از نژادهای مختلف سگ تشکیل شده است که کلاه مهمانی به سر دارند، اما یک گلدن رتریور در گوشه ای به وضوح بر والدین خود نظارت می کند. حیاط خلوت، بعد از ظهر.”
ChatGPT یک صحنه جشن، شدید با تنوع ژانر زیاد، یک “روز بار مبارک!” بنر، کیسه های هدیه، تابلوی تخته سیاه و یک گلدن رتریور بزرگتر که در سمت راست قرار گرفته است.
نانو موز روایتی قدرتمند با گلدن رتریور کنترل کننده به وضوح در پس زمینه حیاط خلوت حومه شهر ارائه کرد. «بچه ای» که کیکی روی میز در دست دارد، نژادهای مختلف سگ با کلاه مهمانی و بنر «روز پارس مبارک» قانع کننده به نظر می رسند.
برنده: نانو موز برنده شد زیرا کل مفهوم فرمان، والد کنترل کننده گلدن رتریور “در گوشه” بود و نانو موز اساساً این روایت را به صحنه می برد، در حالی که ChatGPT یک مهمانی عمومی برای سگ ها برگزار کرد.
برنده کلی: ChatGPT Images 2.0
این تقسیم شگفت انگیز 4-3 تفاوت واقعی را در نحوه تفسیر این مدل ها از جهان نشان می دهد. ChatGPT Images 2.0 تاج و تخت را در هوش مفهومی به دست آورده است زیرا فراتر از ایجاد تصویر و طراحی واقعی است. این مدل هنگام اجرای منطق چیدمان مورد نیاز، متن خوانا و سازگاری داخلی عملکرد بسیار خوبی داشت. اگر کار شما به دقت، دنیای پیچیده یا حساسیت های طراحی گرافیکی نیاز دارد، ChatGPT ابزاری برای این کار است.
نانو موز 2 ثابت می کند که در درک تحت اللفظی استاد است. به مهندسی بیش از حد نیاز ندارد. این فقط کاری را انجام می دهد که شما واقعاً می خواهید. دقت مشاهده ای برای عکاسی و دارایی های مبتنی بر روایت مفید است.
از آنجایی که این رویارویی بسیار نزدیک است، فکر میکنم میتوان گفت که ChatGPT Images بهترین نتایج را از نظر متن خوانا و یکسان سازی مفهومی ارائه میدهد. با این حال، برای رئالیسم عکاسی و تعامل سریع و فشرده بدون نیاز به مهارت اضافی، نانو موز 2 مدلی برای این کار است.
نکته مهم در اینجا این است که شکاف بین این دو هرگز کمتر نبوده است. ما اکنون در یک حوزه کاملاً جدید از ساخت تصویر هستیم. ما وارد عصر نیت شده ایم.
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود. مشترک شدن در راهنمای تام یوتیوب و ما را دنبال کنید tiktok.
















