Google Gemini در مقابل ChatGPT در مقابل MetaAI – که چت ربات بهترین تصاویر را تولید می کند

چت ربات های پیشرو هوش مصنوعی قادر به تولید بیش از داستان های کوتاه، شعر و کد هستند. ChatGPT، Gemini و MetaAI نیز دارای قابلیت رندر هستند.
خود چت بات ها در واقع تصاویر را ایجاد نمی کنند. در عوض، هر یک به عنوان یک واسطه بین کاربر و یک مدل تصویر هوش مصنوعی متفاوت عمل می کند. اما این همیشه در برنامه ریزی کارساز نبود، زیرا منجر به تولید تصاویر نژادپرستانه Gemini شد، به گونه ای که مدل نمایشگر به تنهایی این کار را نمی کرد.
با پیوستن MetaAI اخیراً به رباتهای چت، تصمیم گرفتم مجموعهای از اعلانها ایجاد کنم تا ببینم هر AI در ایجاد انواع تصاویر و سبکهای مختلف چقدر خوب عمل میکند.
در حالی که Claude 3 میتوانست یک تصویر را تجزیه و تحلیل کند، نمیتوانست آن را برش دهد زیرا هنوز نمیتوانست تصویری ایجاد کند، و من مایکروسافت Copilot را خاموش کردم زیرا از همان مدل اصلی DALL-E 3 مانند ChatGPT استفاده میکند.
ایجاد درخواست برای آزمایش تصویر
در طول این آزمایش من همه چیز را به عنوان پیش فرض رها کردم و هیچ دستورالعملی فراتر از مفهوم و سبکی که می خواستم هوش مصنوعی ارائه دهد اضافه نکردم.
من به ChatGPT دستور دادم که این ها را مربع بسازد زیرا این پیش فرض نیست، در حالی که MetaAI و Gemini فقط تصاویری با فرمت مربع تولید می کنند.
1. یک لحظه سورئالیستی
اولین اعلان توانایی هوش مصنوعی را برای پیروی از یک دستور پیچیده از طریق مجموعهای از دستورالعملها، از جمله رنگآمیزی، یک ظاهر طراحی و فوکوس آزمایش میکند.
اعلان: «منظرهای سورئال با یک جزیره شناور با یک معبد باستانی اسرارآمیز، پر از گیاهان نورانی و موجودات اثیری، که به سبک هنری پر جنب و جوش و رویایی ارائه شده است.»
جمینی نتوانست گیاهان بیولومنسسنت را بگیرد، اما جزیره و معبد شناور بهتری ایجاد کرد. من این را به MetaAI می دهم زیرا فکر می کنم بهترین همه کاره است.
2. جادوگر باستانی

بعدی تنها شخص واقعی در مجموعه است. هدف نشان دادن چهره ای پیر با نشانه هایی از دانش و قدرت گسترده در پشت چشمانش است.
اعلان: «پرتره با جزئیات بسیار نزدیک از یک جادوگر پیر خردمند با ریشی پیچیده و بافته که با تزئینات جادویی آراسته شده، به سبکی واقع گرایانه گرفته شده است که یادآور نقاشی های رنسانس است.»
ابتدا بیایید مربع خالی اتاق را در نظر بگیریم. گوگل جمینی قاطعانه از ارائه این تصویر امتناع کرد زیرا یک شخص، حتی یک فرد خیالی را نشان می داد. تصاویر MetaAI و ChatGPT باورنکردنی بودند، اما ChatGPT به سختی متا را شکست داد.
3. نینجا سایبرپانک

هر ژنراتور چقدر میتواند یک موتورسیکلت بسیار سبک را در حال حرکت به تصویر بکشد و مفهوم منظره شهری غرق باران را به تصویر بکشد؟ خیلی خوب.
اعلان: «سکانسی اکشن پویا که به سبک کتاب های مصور ریگ ارائه شده است که یک نینجا سایبرپانک را به تصویر می کشد که در حال تعقیب و گریز با سرعت بالا با موتورسیکلت پرنده آینده نگر از میان منظره شهری با نور نئون و غرق در باران است».
دوباره، من انتخاب کردم که این یکی را به ChatGPT بدهم زیرا فکر می کردم مفهوم باران را بهتر از دو مورد دیگر به تصویر می کشد. MetaAI یک دوچرخه پرنده تولید نکرد و Gemini کمی بیش از حد احساساتی بود.
4. بچه فیل ناز

این اعلان توانایی چت ربات هوش مصنوعی را برای به تصویر کشیدن مفهوم زیبا و انجام این کار به روشی که از دستور استایل پیروی می کرد (در این مورد، سبک Pixar) آزمایش کرد.
اعلان: “یک بچه فیل شایان ستایش و رسا که با یک توپ رنگارنگ در باغی سرسبز و گرمسیری بازی می کند، با سبک انیمیشن سه بعدی خیره کننده پیکسار مانند.”
همه آنها کار خوبی انجام دادند، اما من از ChatGPT برای حد مجاز امتیاز گرفتم. در مجموع، همه آنها قابل توجه بودند، اما من فکر می کنم نزدیک ترین فرد به این جنبش جمینی بود.
5. طبیعت و فناوری

من دوست دارم ببینم چت رباتهای هوش مصنوعی چقدر میتوانند مفهوم انتزاعیتری را مدیریت کنند، یا در این مورد، چیزی قابل تامل تولید کنند.
اعلان: «تصویر مفهومی تامل برانگیزی که یک دست رباتیک را به تصویر میکشد که با ظرافت گلی شکننده و شکوفهدار را در وسط منظرهای متروک و پساآخرالزمانی در دست گرفته و نمادی از مبارزه بین طبیعت و فناوری است.»
هر سه مولد تصویر هوش مصنوعی چیزی مشابه ایجاد کردند، اما MetaAI بسیار مورد علاقه من بود زیرا مفهوم استحکام و نرمی را کاملاً ترکیب می کرد.
6. یک طبیعت بی جان ساده

دیدن اینکه رندرهای مختلف هوش مصنوعی چگونه می توانند در هنگام به تصویر کشیدن شیشه به انجام برسند، همیشه سرگرم کننده است. در اینجا، لیوان حاوی شراب گازدار، مخلوطی از میوه، گوشت و سایر عناصر بود.
اعلان: «ترکیب بیجانهای بیجان، که به سبک فوتورئالیستی با نورپردازی دراماتیک گرفته شده است، مجموعهای هنرمندانه از میوههای عجیب و غریب، پنیرهای لذیذ و یک لیوان شراب گازدار را به نمایش میگذارد.»
هر سه تصویری با موضوع مشابه ایجاد کردند. همه آنها دستورالعمل را دنبال کردند، اما من ChatGPT را بسیار پیچیده و MetaAI را خیلی واضح دیدم، بنابراین آن را به Gemini دادم.
7. رفتن به فضا

در نهایت به فضا و مفهوم ایستگاه فضایی غول پیکر می رویم. اما او مجبور بود بیش از این کار کند. قرار بود هم ستارگان و هم یک سحابی را نشان دهد که بخشی علمی تخیلی و بخشی واقعیت بود.
اعلان: «یک صحنه نجومی الهامبخش، به سبکی که داستان علمی تخیلی و واقعگرایی را در هم میآمیزد، نشاندهنده یک ایستگاه فضایی عظیم و باستانی است که به دور یک سیستم ستارهای دوتایی درخشان میچرخد، با یک سحابی پر جنب و جوش و ستارههای بیشماری در پسزمینه.»
من مطمئن نیستم که MetaAI فکر می کند در اینجا چه می کند. در یک مماس عجیب خیلی اشتباه به نظر می رسید. من مجبور شدم این را به ChatGPT بدهم زیرا تنها آن دو ستاره بود.
آیا برنده ای وجود داشت؟
| چالش | ChatGPT | جوزا | MetaAI |
|---|---|---|---|
| یک لحظه سورئالیستی | ردیف 0 – سلول 1 | ردیف 0 – سلول 2 | ✅ |
| یک جادوگر پیر | ✅ | ردیف 1 – سلول 2 | ردیف 1 – سلول 3 |
| نینجا سایبرپانک | ✅ | ردیف 2 – سلول 2 | ردیف 2 – سلول 3 |
| بچه فیل ناز | ردیف 3 – سلول 1 | ✅ | ردیف 3 – سلول 3 |
| طبیعت و تکنولوژی | ردیف 4 – سلول 1 | ردیف 4 – سلول 2 | ✅ |
| یک طبیعت بی جان ساده | ردیف 5 – سلول 1 | ✅ | ردیف 5 – سلول 3 |
| به فضا | ✅ | ردیف 6 – سلول 2 | ردیف 6 – سلول 3 |
| جمع | 3 | 2 | 2 |
این خیلی نزدیکتر از چیزی بود که انتظار داشتم. هر چت ربات هوش مصنوعی به جز Gemini و انسان ها موفق به ایجاد یک سری تصاویر جذاب شده است.
تفاوتهای سبکی عمدهای بین آنها وجود داشت، و در هر مورد این به سلیقه شخصی بود تا عناصر دیگری مانند ردیابی سریع.
در پایان من فکر می کنم ChatGPT از دو دیگر پیشی می گیرد. همچنین دارای مجموعه گستردهتری از ویژگیها، از جمله توانایی ایجاد جهتگیریهای مختلف تصویر و اندازههای بوم، ویرایش تصاویر و سایر عملکردها است. با این حال، متا می تواند یک تصویر را متحرک کند.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide



