من به تازگی رندر ChatGPT را آزمایش کردم – و به نظر می رسد DALL-E یک ارتقاء مخفیانه داده شده است
من هر روز از ChatGPT برای کارهای مختلف استفاده می کنم، مانند ایده های طوفان فکری، تنظیم دستور العمل ها، و حتی ایجاد تصاویری برای روز پدر. DALL-E 3، تولید کننده تصویر هوش مصنوعی که ChatGPT برای ایجاد تصاویر خود استفاده می کند، به نظر می رسد اخیراً به روز شده است.
OpenAI هیچ اطلاعیه ای در مورد ارتقاء نداده است. من نمی توانم هیچ یادداشت انتشاری را پیدا کنم که نشان دهنده تغییر باشد، اما من تنها کسی نیستم که متوجه شده ام که توانایی رندر متن به طور قابل توجهی افزایش یافته است، با بلوک های متن بسیار طولانی تر از قبل. به عبارت دیگر، مبارزه برای بهترین تولید کننده تصویر هوش مصنوعی جالبتر شد.
شک من این است که این GPT-4o در محل کار است. نه برای تولید خود تصاویر، اگرچه OpenAI می گوید که در آینده می تواند این کار را انجام دهد، بلکه برای اصلاح درخواست های کاربر قبل از ارسال آنها به ChatGPT برای تولید خروجی دقیق تر.
هنوز همه ویژگیهای GPT-4o فعال نشدهاند. در حال حاضر فقط برای تجزیه و تحلیل متن، تجزیه و تحلیل تصویر و تولید متن استفاده می شود. اگرچه شما گهگاه لحظاتی را مشاهده می کنید که در آن همه قابلیت های چند وجهی وارد عمل می شوند، این مورد یک استثنا است و در درجه اول از DALL-E 3 برای ارائه تصاویر خود استفاده می کند.
تست کردن DALL-E 3
Open AI DALL-E 3 بهروزرسانیهای بزرگی دریافت کرده است: اکنون میتواند تصاویر را با متن طولانیتر با نرخ موفقیت بیش از 95 درصد رندر کند. با این حال، ظرفیت آن برای تولید تصاویر فوتورئالیستی بسیار ضعیف است. نتایج خود را در نظرات به اشتراک بگذارید. این 5 مثال دارد 🧵 (اعلان در ALT)… pic.twitter.com/sw7v8BZfBq17 ژوئن 2024
برای اینکه بفهمم DALL-E 3 چقدر خوب شده است، 7 نکته سخت به او دادم. ما طومارهای باستانی، کمیک ها و صحنه های استیم پانک را پوشش می دهیم.
در هر یک از دستورات، از آنها خواستم که یک تصویر عریض ایجاد کنند و متن اضافه کنند. اگر میخواهید متن را دقیقتر ارائه کند، آن را در نقل قول قرار دهید. این برای همه تولیدکنندگان تصویر هوش مصنوعی، از جمله Midjourney، Ideogram و Leonardo صادق است.
اگر می خواهید از استفاده از ابزارهای هوش مصنوعی حداکثر استفاده را ببرید، ما چندین راهنما در مورد رندرینگ و استفاده از ChatGPT داریم که ارزش بررسی را دارد.
1. اسکرول دستور العمل معجون جادویی
من محدودیت های قابلیت های ایجاد متن را با این اعلان بالا می برم. اساساً من می گویم یک اسکرول با دستورالعمل ها و یک عنوان ایجاد کنید. در گذشته انتظار داشتم عنوان در بالای صفحه باشد و سپس در همه جا متن مزخرف داشته باشد.
اعلان: «یک طومار باستانی روی یک میز چوبی باز شد که با مواد عرفانی مانند فلس اژدها و پرهای ققنوس احاطه شده بود. متن روی طومار “اکسیر خرد بی نهایت” را با دستورالعمل ها و تصاویر دقیق و جالب می خواند.
اگرچه کامل نبود و دارای مشکلات و تکرارهایی با حرف دوگانه بود، ChatGPT هم سرصفحه و هم چندین سرصفحه پایینی را ارائه کرد. این یک گام بزرگ رو به جلو در قابلیت رندر و شبیه به Ideogram، پیشرو در فضای متن تصویر هوش مصنوعی بود.
2. منوی کافه سفر در زمان
بعدی چیزی است که فقط Ideogram به خوبی انجام می دهد، اگرچه Midjourney نزدیک است. ایجاد یک تابلوی منو در یک کافه. DALL-E 3 همیشه در اینجا مبارزه می کند.
اعلان: «کافهای معمولی که در آن صفحه منو «خاصیتهای امروزی» را از دورههای مختلف نمایش میدهد، مانند «مید قرون وسطایی»، «اسکونهای ویکتوریایی» و «اسموتی فیوژن آینده».
همانطور که از تصویر می بینید او کار خوبی انجام داده است. روی تخته بالا دو Buns ویکتوریایی و عبارات تصادفی در اطراف اتاق وجود دارد، اما در کل به خوبی انجام شده است.
این خوب به نظر می رسد. اکنون دو تصویر داریم که می توانند بلوک های جداگانه متن را به درستی ارائه دهند.
3. جلد کتاب کمیک بیگانه
بسیاری از رندرهای هوش مصنوعی می توانند یک جلد کتاب مصور زیبا ایجاد کنند. DALL-E 3 نیز از این قاعده مستثنی نیست، اما دوباره با متن مشکل دارد و مرتباً حروف دوتایی را درج می کند.
Prompt: “یک جلد کتاب کمیک پویا با عنوان “نگهبانان کهکشانی” که شامل انواع ابرقهرمانان بیگانه در حالت اکشن است. عنوان پررنگ و پررنگ است و همچنین “مسئله شماره 1 – تهاجم آغاز می شود!” متن اضافی مانند وجود دارد. و “نسخه ویژه”.
در اینجا او عنوان، زیرنویس و حتی شماره ISSUE را بدون زحمت ایجاد کرد. او حتی مفهوم طرح را میخکوب کرد. در 16:9 مشاهده شد، بیشتر شبیه پوستر است تا کمیک، اما من دوباره دستور را با نسبت ابعاد 9:16 امتحان کردم و جواب داد.
4. طرح ربات با حاشیه نویسی
هرچه متن بیشتری را از یک رندر هوش مصنوعی بخواهید تولید کند، احتمال اشتباه بیشتر است. من متوجه شده ام که گاهی اوقات، وقتی متن زیادی درخواست می کنید، حتی اولین بیت از متن در تصویر تصحیح نمی شود و در کل آن را بدتر می کند.
اعلان: «نقشه ای دقیق از یک ربات جالب با توضیحاتی که با دست ترسیم شده است. برچسبها ویژگیهایی مانند «چکمههای ضد جاذبه»، «دید لیزر» و «تراشه طنز» را با یادداشتهای جانبی و تصاویر طنز در اطراف لبهها برجسته میکنند.
من به دلیل درخواست حاشیه نویسی انتظار شکست کامل را داشتم و بسیار شگفت زده شدم. بله کامل نیست و به نظر می رسد کلمات خاصی را که بارها و بارها زیر آن خط کشیده ام تکرار می کند – اما خواندنی است و عالی به نظر می رسد.
5. دفتر خاطرات یک مسافر زمان استیمپانک
وقتی از هوش مصنوعی میخواهید کتابی را به شما نشان دهد، ابتدا آن را روی میز قرار میدهد و اغلب باعث میشود که میز شبیه کتاب باشد. او همچنین می تواند یک کلمه را درست دریافت کند. در اینجا من یک جمله بندی خاص و همچنین طرح و استایل در دو خط می خواهم
درخواست ChatGPT: “یک مجله باز پر از طرح های پیچیده، نقشه ها و یادداشت های اختراعات استیمپانک. متن موجود در صفحات شامل “سفر به آینده – 3024 بعد از میلاد” و “ایده اختراع: ماشین زمان با بخار” است.
کتاب را روی میزی می گذارد که هنوز شبیه کتاب است. از نظر سبکی چشمگیر است اما نه واقعاً آن چیزی که من انتظارش را داشتم. او متن را به درستی دریافت کرد و ایده سبک را به تصویر کشید.
6. صفحه کتاب دستور العمل عجیب
این خواسته یک نبرد سخت برای هوش مصنوعی خواهد بود. نه تنها عنوان باید دقیق باشد، بلکه محتوای خاص نیز باید دقیق باشد. در نسخه های قبلی DALL-E 3، حتی عنوان و عنوان دستور غذا قابل مدیریت نبود. یا بود یا
درخواست: «صفحهای از یک کتاب دستور پخت فانتزی با عنوان «آشپزی با سحر و جادو». دستور غذا برای “کاپ کیک پری گرد و غبار” با موادی مانند “1 فنجان گرد و غبار ستاره” و “2 قاشق چایخوری مهتاب” است. نقاشی های کیک و وسایل جادویی آشپزخانه این صفحه را زینت می دهد.
کامل نبود، اما آشپزی با سحر و جادو خوب به نظر می رسد، عنوان دستور غذا و اولین ماده را دریافت کرد، اما بعد از آن همه چیز به اشتباه افتاد. اما بهتر از چیزی بود که انتظار داشتم. من همان دستور را در Ideogram امتحان کردم و سبک بهتر بود، اما مشکلات مشابهی در مورد رندر متن در پایین صفحه وجود داشت.
7. پوستر سفر قدیمی برای یک مقصد خیالی
بالاخره یک پوستر این یکی از اولین چیزهایی بود که شرکتهای هوش مصنوعی از نظر متن خوانا فهمیدند، بنابراین نباید خیلی سخت باشد – اما من آن را برای چندین بلوک میخواهم.
درخواست: “یک پوستر مسافرتی به سبک یکپارچهسازی با سیستمعامل تبلیغاتی “از جزایر شناور ایریون دیدن کنید.” پوستر مناظری خیره کننده از جزایر شناور با آبشارها را نشان می دهد و متن شامل جزئیات سفر و شعار جذابی مانند “ماجراجویی در بلندی آسمان در انتظار است.” !” گرفتن.
برای اینکه این کار را انجام دهد، او نیاز به ایجاد یک عنوان، یک عنوان فرعی، و همچنین یک عنوان دوم داشت، و به نظر من او یک پوستر عالی خلق کرد. بله، برخی از ویژگیهای عجیب و غریب در مورد عناصر دیگر در صفحه وجود دارد، اما من به او نگفتم چگونه آنها را ایجاد کند، آن را به او واگذار کردم.
افکار نهایی
به طور کلی، من فکر می کنم بهبود واضحی در دقت متن رندر شده DALL-E 3 وجود دارد. اما او همچنین به نحوه بیان واقعی خود کمی به عقب بازگشت، و تصنعی بیشتر و تار کردن کلمات را اضافه کرد.
وقتی از Ideogram یا Midjourney استفاده میکنید، نوشتار واضحتر است، اما در تصاویر حاوی متن از DALL-E مقداری تحریف وجود دارد.
فکر نمیکنم این برای یک کارت تبریک روز پدر یا یک تبریک سرگرمکننده آنقدر مهم باشد، اما اگر میخواهید از آن برای ساخت یک تیشرت یا حتی برای یک پروژه نمایش عمومی استفاده کنید، این موضوع بیشتر به یک مسئله تبدیل میشود.
ممکن است این مشکل با نسخه جدید DALL-E حل شود. به نظر میرسد که GPT-4o بیشتر کارهای سنگین را در اینجا با اصلاح اعلانهای ارسال شده به ارائهدهنده تصویر انجام میدهد تا یک مدل تصویر بهتر بتواند منطقاً تصاویر بهتری را پیشنهاد کند.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide