من به تازگی رندر ChatGPT را آزمایش کردم – و به نظر می رسد DALL-E یک ارتقاء مخفیانه داده شده است

پروین میرمیران17 ژوئن 2024آخرین به روز رسانی: 17 ژوئن 2024

0 2,660 خواندن این مطلب 6 دقیقه زمان میبرد

من هر روز از ChatGPT برای کارهای مختلف استفاده می کنم، مانند ایده های طوفان فکری، تنظیم دستور العمل ها، و حتی ایجاد تصاویری برای روز پدر. DALL-E 3، تولید کننده تصویر هوش مصنوعی که ChatGPT برای ایجاد تصاویر خود استفاده می کند، به نظر می رسد اخیراً به روز شده است.

OpenAI هیچ اطلاعیه ای در مورد ارتقاء نداده است. من نمی توانم هیچ یادداشت انتشاری را پیدا کنم که نشان دهنده تغییر باشد، اما من تنها کسی نیستم که متوجه شده ام که توانایی رندر متن به طور قابل توجهی افزایش یافته است، با بلوک های متن بسیار طولانی تر از قبل. به عبارت دیگر، مبارزه برای بهترین تولید کننده تصویر هوش مصنوعی جالب‌تر شد.

شک من این است که این GPT-4o در محل کار است. نه برای تولید خود تصاویر، اگرچه OpenAI می گوید که در آینده می تواند این کار را انجام دهد، بلکه برای اصلاح درخواست های کاربر قبل از ارسال آنها به ChatGPT برای تولید خروجی دقیق تر.

هنوز همه ویژگی‌های GPT-4o فعال نشده‌اند. در حال حاضر فقط برای تجزیه و تحلیل متن، تجزیه و تحلیل تصویر و تولید متن استفاده می شود. اگرچه شما گهگاه لحظاتی را مشاهده می کنید که در آن همه قابلیت های چند وجهی وارد عمل می شوند، این مورد یک استثنا است و در درجه اول از DALL-E 3 برای ارائه تصاویر خود استفاده می کند.

تست کردن DALL-E 3

Open AI DALL-E 3 به‌روزرسانی‌های بزرگی دریافت کرده است: اکنون می‌تواند تصاویر را با متن طولانی‌تر با نرخ موفقیت بیش از 95 درصد رندر کند. با این حال، ظرفیت آن برای تولید تصاویر فوتورئالیستی بسیار ضعیف است. نتایج خود را در نظرات به اشتراک بگذارید. این 5 مثال دارد 🧵 (اعلان در ALT)… pic.twitter.com/sw7v8BZfBq17 ژوئن 2024

برای اینکه بفهمم DALL-E 3 چقدر خوب شده است، 7 نکته سخت به او دادم. ما طومارهای باستانی، کمیک ها و صحنه های استیم پانک را پوشش می دهیم.

در هر یک از دستورات، از آنها خواستم که یک تصویر عریض ایجاد کنند و متن اضافه کنند. اگر می‌خواهید متن را دقیق‌تر ارائه کند، آن را در نقل قول قرار دهید. این برای همه تولیدکنندگان تصویر هوش مصنوعی، از جمله Midjourney، Ideogram و Leonardo صادق است.

اگر می خواهید از استفاده از ابزارهای هوش مصنوعی حداکثر استفاده را ببرید، ما چندین راهنما در مورد رندرینگ و استفاده از ChatGPT داریم که ارزش بررسی را دارد.

1. اسکرول دستور العمل معجون جادویی

(اعتبار تصویر: ChatGPT DALL-E 3/Future AI)

من محدودیت های قابلیت های ایجاد متن را با این اعلان بالا می برم. اساساً من می گویم یک اسکرول با دستورالعمل ها و یک عنوان ایجاد کنید. در گذشته انتظار داشتم عنوان در بالای صفحه باشد و سپس در همه جا متن مزخرف داشته باشد.

اعلان: «یک طومار باستانی روی یک میز چوبی باز شد که با مواد عرفانی مانند فلس اژدها و پرهای ققنوس احاطه شده بود. متن روی طومار “اکسیر خرد بی نهایت” را با دستورالعمل ها و تصاویر دقیق و جالب می خواند.

اگرچه کامل نبود و دارای مشکلات و تکرارهایی با حرف دوگانه بود، ChatGPT هم سرصفحه و هم چندین سرصفحه پایینی را ارائه کرد. این یک گام بزرگ رو به جلو در قابلیت رندر و شبیه به Ideogram، پیشرو در فضای متن تصویر هوش مصنوعی بود.

ChatGPT DALL-E 3

(اعتبار تصویر: ChatGPT DALL-E 3/Future AI)

بعدی چیزی است که فقط Ideogram به خوبی انجام می دهد، اگرچه Midjourney نزدیک است. ایجاد یک تابلوی منو در یک کافه. DALL-E 3 همیشه در اینجا مبارزه می کند.

اعلان: «کافه‌ای معمولی که در آن صفحه منو «خاصیت‌های امروزی» را از دوره‌های مختلف نمایش می‌دهد، مانند «مید قرون وسطایی»، «اسکون‌های ویکتوریایی» و «اسموتی فیوژن آینده».

همانطور که از تصویر می بینید او کار خوبی انجام داده است. روی تخته بالا دو Buns ویکتوریایی و عبارات تصادفی در اطراف اتاق وجود دارد، اما در کل به خوبی انجام شده است.

این خوب به نظر می رسد. اکنون دو تصویر داریم که می توانند بلوک های جداگانه متن را به درستی ارائه دهند.

3. جلد کتاب کمیک بیگانه

ChatGPT DALL-E 3

(اعتبار تصویر: ChatGPT DALL-E 3/Future AI)

بسیاری از رندرهای هوش مصنوعی می توانند یک جلد کتاب مصور زیبا ایجاد کنند. DALL-E 3 نیز از این قاعده مستثنی نیست، اما دوباره با متن مشکل دارد و مرتباً حروف دوتایی را درج می کند.

Prompt: “یک جلد کتاب کمیک پویا با عنوان “نگهبانان کهکشانی” که شامل انواع ابرقهرمانان بیگانه در حالت اکشن است. عنوان پررنگ و پررنگ است و همچنین “مسئله شماره 1 – تهاجم آغاز می شود!” متن اضافی مانند وجود دارد. و “نسخه ویژه”.

در اینجا او عنوان، زیرنویس و حتی شماره ISSUE را بدون زحمت ایجاد کرد. او حتی مفهوم طرح را میخکوب کرد. در 16:9 مشاهده شد، بیشتر شبیه پوستر است تا کمیک، اما من دوباره دستور را با نسبت ابعاد 9:16 امتحان کردم و جواب داد.

4. طرح ربات با حاشیه نویسی

ChatGPT DALL-E 3

(اعتبار تصویر: ChatGPT DALL-E 3/Future AI)

هرچه متن بیشتری را از یک رندر هوش مصنوعی بخواهید تولید کند، احتمال اشتباه بیشتر است. من متوجه شده ام که گاهی اوقات، وقتی متن زیادی درخواست می کنید، حتی اولین بیت از متن در تصویر تصحیح نمی شود و در کل آن را بدتر می کند.

اعلان: «نقشه ای دقیق از یک ربات جالب با توضیحاتی که با دست ترسیم شده است. برچسب‌ها ویژگی‌هایی مانند «چکمه‌های ضد جاذبه»، «دید لیزر» و «تراشه طنز» را با یادداشت‌های جانبی و تصاویر طنز در اطراف لبه‌ها برجسته می‌کنند.

من به دلیل درخواست حاشیه نویسی انتظار شکست کامل را داشتم و بسیار شگفت زده شدم. بله کامل نیست و به نظر می رسد کلمات خاصی را که بارها و بارها زیر آن خط کشیده ام تکرار می کند – اما خواندنی است و عالی به نظر می رسد.

5. دفتر خاطرات یک مسافر زمان استیمپانک

ChatGPT DALL-E 3

(اعتبار تصویر: ChatGPT DALL-E 3/تصویر AI)

وقتی از هوش مصنوعی می‌خواهید کتابی را به شما نشان دهد، ابتدا آن را روی میز قرار می‌دهد و اغلب باعث می‌شود که میز شبیه کتاب باشد. او همچنین می تواند یک کلمه را درست دریافت کند. در اینجا من یک جمله بندی خاص و همچنین طرح و استایل در دو خط می خواهم

درخواست ChatGPT: “یک مجله باز پر از طرح های پیچیده، نقشه ها و یادداشت های اختراعات استیمپانک. متن موجود در صفحات شامل “سفر به آینده – 3024 بعد از میلاد” و “ایده اختراع: ماشین زمان با بخار” است.

کتاب را روی میزی می گذارد که هنوز شبیه کتاب است. از نظر سبکی چشمگیر است اما نه واقعاً آن چیزی که من انتظارش را داشتم. او متن را به درستی دریافت کرد و ایده سبک را به تصویر کشید.

6. صفحه کتاب دستور العمل عجیب

ChatGPT DALL-E 3

(اعتبار تصویر: ChatGPT DALL-E 3/Future AI)

این خواسته یک نبرد سخت برای هوش مصنوعی خواهد بود. نه تنها عنوان باید دقیق باشد، بلکه محتوای خاص نیز باید دقیق باشد. در نسخه های قبلی DALL-E 3، حتی عنوان و عنوان دستور غذا قابل مدیریت نبود. یا بود یا

درخواست: «صفحه‌ای از یک کتاب دستور پخت فانتزی با عنوان «آشپزی با سحر و جادو». دستور غذا برای “کاپ کیک پری گرد و غبار” با موادی مانند “1 فنجان گرد و غبار ستاره” و “2 قاشق چایخوری مهتاب” است. نقاشی های کیک و وسایل جادویی آشپزخانه این صفحه را زینت می دهد.

کامل نبود، اما آشپزی با سحر و جادو خوب به نظر می رسد، عنوان دستور غذا و اولین ماده را دریافت کرد، اما بعد از آن همه چیز به اشتباه افتاد. اما بهتر از چیزی بود که انتظار داشتم. من همان دستور را در Ideogram امتحان کردم و سبک بهتر بود، اما مشکلات مشابهی در مورد رندر متن در پایین صفحه وجود داشت.

7. پوستر سفر قدیمی برای یک مقصد خیالی

ChatGPT DALL-E 3

(اعتبار تصویر: ChatGPT DALL-E 3/Future AI)

بالاخره یک پوستر این یکی از اولین چیزهایی بود که شرکت‌های هوش مصنوعی از نظر متن خوانا فهمیدند، بنابراین نباید خیلی سخت باشد – اما من آن را برای چندین بلوک می‌خواهم.

درخواست: “یک پوستر مسافرتی به سبک یکپارچهسازی با سیستمعامل تبلیغاتی “از جزایر شناور ایریون دیدن کنید.” پوستر مناظری خیره کننده از جزایر شناور با آبشارها را نشان می دهد و متن شامل جزئیات سفر و شعار جذابی مانند “ماجراجویی در بلندی آسمان در انتظار است.” !” گرفتن.

برای اینکه این کار را انجام دهد، او نیاز به ایجاد یک عنوان، یک عنوان فرعی، و همچنین یک عنوان دوم داشت، و به نظر من او یک پوستر عالی خلق کرد. بله، برخی از ویژگی‌های عجیب و غریب در مورد عناصر دیگر در صفحه وجود دارد، اما من به او نگفتم چگونه آنها را ایجاد کند، آن را به او واگذار کردم.

افکار نهایی

به طور کلی، من فکر می کنم بهبود واضحی در دقت متن رندر شده DALL-E 3 وجود دارد. اما او همچنین به نحوه بیان واقعی خود کمی به عقب بازگشت، و تصنعی بیشتر و تار کردن کلمات را اضافه کرد.

وقتی از Ideogram یا Midjourney استفاده می‌کنید، نوشتار واضح‌تر است، اما در تصاویر حاوی متن از DALL-E مقداری تحریف وجود دارد.

فکر نمی‌کنم این برای یک کارت تبریک روز پدر یا یک تبریک سرگرم‌کننده آنقدر مهم باشد، اما اگر می‌خواهید از آن برای ساخت یک تی‌شرت یا حتی برای یک پروژه نمایش عمومی استفاده کنید، این موضوع بیشتر به یک مسئله تبدیل می‌شود.

ممکن است این مشکل با نسخه جدید DALL-E حل شود. به نظر می‌رسد که GPT-4o بیشتر کارهای سنگین را در اینجا با اصلاح اعلان‌های ارسال شده به ارائه‌دهنده تصویر انجام می‌دهد تا یک مدل تصویر بهتر بتواند منطقاً تصاویر بهتری را پیشنهاد کند.