رندر یکی از بالغ ترین اشکال ایجاد هوش مصنوعی است که می تواند یک ایده ساده را به یک عکس گرافیکی یا هر نوع تصویر تبدیل کند.
خوب، فناوری زیربنایی کاملاً بالغ است. هنوز تمایزات قوی بین یک مدل و مدل دیگر وجود دارد و حتی بین روشی که یک شرکت همان نسخه از یک مدل را به روشی کاملاً متفاوت در اختیار شرکت دیگری قرار می دهد.
در برخی زمینه ها، به ویژه در مورد چهره های بیش از حد واقعی انسان، همگرایی زیادی وجود دارد، اما در برخی دیگر تفاوت های واضحی وجود دارد، به ویژه مواردی مانند رندر متن، بافت پوست، و ردیابی داوطلبانه
برای درک بهتر اینکه چگونه هوش مصنوعی میتواند دستورات نسبتاً پیچیده را مدیریت کند، همان درخواستهای رایگان را برای ۷ رندر پیشرو هوش مصنوعی از جمله DALL-E، Flux، Ideogram، Mystic، Phoenix، Midjourney و Haiper ارسال کردم.
درخواست ایجاد کنید
آیا وارد دورانی میشویم که یک برند بهجای پرداخت هزینه به یک اینفلوئنسر برای تبلیغ محصولاتش، محصولی متناسب با زیباییشناسی خود با هوش مصنوعی تولید میکند؟ اینها چند آزمایش هستند که امروز صبح با استفاده از Flux و @runwayml Gen-3 Alpha انجام شده است. pic.twitter.com/7VvscImow11 آگوست 2024
احتمالاً مدلهای بیشتری از آنچه گنجاندهام را حذف کردهام، از جمله Imagen 3 فوقالعاده قدرتمند Google و Imagine AI متا. دلیل حذف این موارد به این دلیل است که به اندازه مواردی که من آوردهام در سطح جهانی در دسترس نیستند.
این سه ادعا کاملاً متفاوت هستند. دلیل اول برای ایجاد یک صحنه پیچیده با عناصر در مکان های خاص، دلیل دوم الزامات خاصی را برای رندر متن تعیین می کند، و دلیل سوم بر بافت پوست و واقع گرایی تمرکز دارد.
اگر با هر یک از تصمیمات من مخالف هستید یا می خواهید دستورات را با تنظیمات خاص امتحان کنید (من همه آنها را با تنظیمات پیش فرض اجرا کردم) دستورات را به طور کامل گنجانده ام.
اولین سرنخ: زن جوان
سلفی فوقالعاده واقعی یک زن جوان در اواسط 20 سالگی. این عکس دارای وضوح مشخصه و رنگ زنده یک دوربین گوشی های هوشمند پیشرفته است که در یک لبه آن تاری حرکتی جزئی وجود دارد. این تصویر در نور طبیعی روز گرفته شده است که باعث نوردهی کمی در یک طرف صورت او شده است. او موهای مجعد تا شانه و هایلایت های کشیده دارد و آرایش مینیمال و غیررسمی با خط چشم کمی لکه دار دارد. حالت او یک لبخند واقعی و کمی کج است که در اطراف چشمانش یک خستگی وجود دارد. این یک سه راهی گرافیکی راحت و فرسوده با لوگوی باند محو شده روی آن است. یک گردنبند نقره نازک تا حدی در موهایش در نزدیکی یقه اش پیچیده شده است. پسزمینه یک آپارتمان استودیویی است که یک تخت بدون تخت و یک قفسه کتاب کوچک قابل مشاهده است. یک گیاه آپارتمانی با چند برگ زرد روی طاقچه پشت سرش نشسته است. یک لکه کوچک قهوه روی یقه پیراهنش وجود دارد که به سختی قابل مشاهده است.
در میانه راه
من از تمام تنظیمات پیشفرض برای همه این دستورات استفاده کردم، که متأسفانه در مورد Midjourney، که قابل تنظیمترین مدل نمایشگر هوش مصنوعی است، ظلم میکند. در اینجا برخی از نکات اعلان را به دلیل رفتار پیشفرض خود برای کامل کردن همه چیز از دست داد. با این حال، من فکر می کنم او تصویری باشکوه از زن خلق کرد.
DALL-E
DALL-E در مسابقه خوب عمل نمی کند زیرا در آزمایش هایی که افراد واقعی را نشان می دهد همه را کمی شبیه عروسک های برتز می کند.
ایدئوگرام
ایدئوگرام در ردیابی عنصر «نقایص» اعلان به خوبی عمل کرد، اما کمی در تاری حرکت زیاده روی کرد. با این حال، من فکر می کنم این طبیعی ترین تصویر از همه افراد است.
Freepik Mystic
من نور میستیک را دوست دارم و زن واقعی ترین به نظر می رسد. دستور به خوبی دنبال شد، اما کمی دره ترسناک وجود دارد. همچنین شماره «بسیار عالی» Midjourney وجود دارد.
Flux (با استفاده از Grok)
فلوکس ممکن است به طور کلی تصویر مورد علاقه من باشد. من فکر نمی کنم از نظر نگه داشتن سریع یا تصویر واقعی بهترین باشد، اما در کل خوب و باورپذیرتر به نظر می رسد.
لئوناردو فینیکس
من واقعاً باور داشتم که این یک عکس واقعی است. این ایرادات را به خوبی ثبت می کند، اما نورپردازی هنوز کمی خاموش است و کادربندی نامناسب است.
هایپر
هایپر کار خوبی انجام داد، اما نورپردازی مناسبی نداشت و پوست بسیار عالی است. به غیر از این، این شخصیت مورد علاقه من برای بیرون آمدن از مجموعه است.
برنده شدن: ایدئوگرام
اخطار دوم: پنی لین
صحنه پر جنب و جوش خیابان لندن دهه 1960 در یک بعد از ظهر بارانی. خیابان مملو از اتوبوسهای دو طبقه قرمز نمادین، تاکسیهای سیاه و مردمی است که چترهای رنگارنگ در دست دارند. یک گروه الهام گرفته از بیتلز در گوشه ای از خیابان اجرا می کند و سازهایشان بر روی سنگفرش خیس منعکس می شود. در پس زمینه، بیگ بن از میان مه سبک ظاهر می شود. تابلوی نئونی بالای یک کافه کوچک با حروف درخشان «Penny Lane» نوشته شده است. در سمت راست، زنی با لباس شیک دهه 1960 منتظر اتوبوس است و روزنامه ای با عنوان «مردی روی ماه قدم می زند» در دست دارد. قطرات باران به وضوح میبارند و موجهایی در گودالها ایجاد میکنند و کل صحنه آمیزهای از نوستالژی و واقعگرایی است.
در میانه راه
Midjourney کار خوبی برای دنبال کردن صحنه انجام داد و سعی کرد علامت را به طور دقیق منتقل کند اما دو درخواست متنی را با هم اشتباه گرفت.
DALL-E
DALL-E سعی کرد دوباره متن را نمایش دهد، اما نتوانست آن را به درستی ارائه دهد، و دو عبارت مختلف را به روشهای عجیبی مخلوط کرد. صحنه هم کارتونی تر از بقیه بود.
ایدئوگرام
ایدئوگرام تنها چیزی است که این را دقیقاً به درستی دریافت می کند. او پنی لین را نقاشی کرد و زنی را تهیه کرد که روزنامه در دست داشت. جلوه های بصری آن به اندازه Midjourney جوی نیست، اما ساختار صحنه بهتر است.
Freepik Mystic
Mystic، بر اساس مدل Flux اما با برخی تغییرات اضافی، نیز چشمگیر است. او متن را به درستی پردازش کرد و یک زن را با روزنامه گذاشت. جلوه های بصری بهتر از Ideogram است، ساختار صحنه به خوبی حضور زن در جاده نیست.
Flux (با استفاده از Grok)
Flux که با استفاده از Grok ساخته شد، با قرار دادن کلمات Penny Lane و Beatles روی یک بیلبورد همراه با Man Walks on the Moon، به طرز شگفت انگیزی هوشمندانه بود. با این حال، در حالی که بصری خوب بود، ساختار صحنه وحشتناک بود، از جمله ایجاد دو برج الیزابت (بیگ بن).
لئوناردو فینیکس
فونیکس لئوناردو احتمالاً مدلی بود که بهترین حالت را در بین مدل هایی که من امتحان کردم ارائه کرد. همچنین پردازش متن قابل توجهی داشت، اما ظاهر بصری، ایجاد صحنه و چهره های آن وحشتناک بود.
هایپر
جلوههای بصری و اتمسفر Haiper بهترین بود، اما به هیچ وجه به متن نمیپرداخت و بسیاری از عناصر دستور را نادیده میگرفت، بنابراین از دستورات نیز پیروی نکرد.
برنده شدن: ایدئوگرام
درخواست سوم: لندن ویکتوریایی
خیابان پرجنبوجوش ویکتوریایی لندن در هنگام غروب، با کالسکههای اسبکشی که در امتداد جادههای سنگفرش حرکت میکنند. زنی خوش پوش با لباس قرمز و روسری زیر یک چراغ نفتی ایستاد و فریاد زد: “اختراعات جدید جهان را تغییر می دهند!” او در حال خواندن روزنامه ای تا شده با این عنوان است: درخشش لامپ نور گرمی را بر چهره اش می تاباند. بخار از گاری یک فروشنده خیابانی در همان حوالی که شاه بلوط برشته میفروخت، بلند میشود، در حالی که بچههایی با لباسهای پاره پاره در پسزمینه بازی میدوند. در دوردست، برج ساعت بیگ بن بالا میرود، نیمهای که در مه مه آلود پوشانده شده است. رئالیسم باید بر بافتهای خیابان، حالات دقیق چهره زن و تفاوتهای ظریف مه و نور تأکید کند.
در میانه راه
Midjourney با نشان دادن دقیق زن در کاپوت، نکات ضروری صحنه را به تصویر می کشد، حتی اگر به نظر می رسد مه به صورت دود بیرون زده شود.
DALL-E
DALL-E متن را امتحان نکرد، اما صحنه را با دقت ثبت کرد. باز هم کمی بیشتر کارتونی بود تا واقع بینانه. شبیه یک کارت پستال ویکتوریایی است.
ایدئوگرام
ایدئوگرام کار معقولی در ایجاد چارچوب انجام داد. من احساس کمی کارتونی یا بچه های خیابان را دوست نداشتم، اما زن طبیعی به نظر می رسد و تقریباً متن را منعکس می کند.
Freepik Mystic
Mystic بهترین تصویر در کل بود، زیرا صحنه را به دقت به تصویر میکشید، حس بسیار واقعی داشت، اما نتوانست متن را ارائه کند.
Flux (با استفاده از Grok)
فلاکس (در گروکیش) کار نمایش متن در روزنامه را به بهترین شکل ممکن انجام داد و حتی تصویر را به گونه ای رندر کرد که نحوه خواندن روزنامه را طبیعی تر کرد.
لئوناردو فینیکس
لئوناردو فینیکس صحنه را به درستی کادربندی کرد و متن روزنامه را ثبت کرد، اما تصویر نیز حسی کارتونی داشت.
هایپر
صحنه در هایپر بسیار واقعی تر به نظر می رسد، سعی نمی کند لندن را با نمایش بیگ بن نشان دهد. در عوض، به نظر میرسد که صحنهای ویکتوریایی، از جمله لامپهای گازی و کالسکههای اسبکشی در خیابانهای سنگفرش شده را نشان میدهد.
برنده شدن: شار (گروکیان)
برنده: ایدئوگرام
سلول سرصفحه – ستون 0 | زن جوان | خیابان پنی | ویکتوریان لندن |
---|---|---|---|
در میانه راه | ردیف 0 – سلول 1 | ردیف 0 – سلول 2 | ردیف 0 – سلول 3 |
DALL-E3 | ردیف 1 – سلول 1 | ردیف 1 – سلول 2 | ردیف 1 – سلول 3 |
ایدئوگرام | 🏆 | 🏆 | ردیف 2 – سلول 3 |
Freepik (اسرارآمیز) | ردیف 3 – سلول 1 | ردیف 3 – سلول 2 | ردیف 3 – سلول 3 |
جریان (در گروکیش) | ردیف 4 – سلول 1 | ردیف 4 – سلول 2 | 🏆 |
لئوناردو فینیکس | ردیف 5 – سلول 1 | ردیف 5 – سلول 2 | ردیف 5 – سلول 3 |
وقتی صحبت از پردازش افراد با استفاده از هوش مصنوعی به میان میآید، واضح است که بهترین مدلها شروع به ادغام کردهاند، با شخصیتهای بسیار مشابه که از یک فرمان در ابزارهای مختلف ظاهر میشوند. توانایی پردازش متن هنوز متغیر است و فقط Ideogram تا حد زیادی سازگار است.
اگرچه من برنده را به Ideogram دادم، اما همه چیز تا حد زیادی ذهنی بود و تفاوت های زیادی بین یک مدل و مدل دیگر وجود داشت که تقریباً هر یک از آنها می توانست برنده هر دسته ای باشد. تنها استثنا DALL-E بود که سن خود را احساس می کرد.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide
نظرات کاربران