من گروک را در یک مسابقه 7 دور مقابل جمینی قرار دادم – اینجا برنده است
ایجاد تصاویر با استفاده از هوش مصنوعی ساده تر از همیشه است. وقتی از یک ربات چت استفاده میکنید، این کار حتی سادهتر میشود، زیرا مدل زبان تمام حدسها را از درخواست عکس شما حذف میکند.
Grok یک تازه وارد به فضای پلت فرم چت است. این ویژگی که در X تعبیه شده است، اکنون به صورت رایگان در دسترس است و شایعات حاکی از آن است که سال آینده به تنهایی با یک URL سفارشی راه اندازی خواهد شد. این امر آن را در رقابت مستقیم تری با Gemini، ChatGPT، Claude و MetaAI قرار می دهد.
تیم xAI همچنین مدل رندر هوش مصنوعی سفارشی خود را به Grok داد. او قبلا از Flux برای ایجاد تصاویر استفاده می کرد اما اکنون به Aurora تغییر مکان داده است، اما ایلان ماسک می گوید ما نباید از این نام استفاده کنیم و در عوض گروک را در نظر بگیریم که تصاویر خود را بسازد.
Gemini همچنین اخیراً تحت یک تعمیر اساسی قرار گرفت و Gemini 2.0 Flash به مدلهای موجود برای مشترکین Gemini Advanced پیوست. اما همچنان حداقل در حال حاضر از مدل پایه Imagen 3 برای رندر تصاویر استفاده می کند. این تغییر خواهد کرد زیرا Gemini 2.0 دارای قابلیت نمایش بومی است.
گروک و جمینی هر دو در کار رندرینگ بسیار خوب هستند، چه برای یک مدل دیگر درخواست دهید یا مدلی را که قبلاً نوشتهاید اصلاح کنید. بنابراین من آنها را مو به مو قرار دادم.
اعلان هایی برای آزمایش ایجاد کنید
ایجاد یک اعلان برای آزمایش قابلیتهای رندر دو چت ربات کمی متفاوت از نوشتن یک درخواست برای Midjourney یا Ideogram است. از آنجایی که هوش مصنوعی شکاف ها را پر می کند، تمرکز بر ساده نگه داشتن آن و استفاده از مفاهیم سطح بالا همراه با توضیحات است.
همچنین باید از کلمات و عباراتی مانند «تصور»، «رنگآمیزی» یا «کاردستی» استفاده کنید تا به مدل بفهمانید که یک تصویر میخواهید، نه یک داستان یا پاسخ متنی. من به جای طراحی عکس می خواهم، بنابراین از آن به عنوان کلمه کلیدی استفاده می کنم.
Gemini فقط تصاویر را با وضوح 1:1 پخش می کند و تاکنون به نظر می رسد Grok وضوح 4:3 را ترجیح می دهد. مگر اینکه خلاف آن ذکر شده باشد، همه تصاویر پاسخ اولیه بدون پیشرفت بعدی هستند. علاوه بر این، به جای ایجاد یک چت جدید برای هر درخواست، همه آنها در یک جلسه درخواست شدند.
1. حیات وحش شهری مدرن
اعلان: «تصویری به سبک عکس از روباه قرمزی ایجاد کنید که در سپیده دم در گذرگاه شهری بارانی سرگردان است، در حالی که عابران پیاده با چتر منتظر سیگنال هستند.»
این اولین درخواست برای آزمایش اینکه آیا آنها نور و عناصر پسزمینه درست را ثبت میکنند و همچنین به خوبی حیوانات را به تصویر میکشند طراحی شده است. خروجی ایدهآل مانند یک عکس سبک با جلوههای باران به نظر میرسد، در حالی که همچنان ظاهری واقعی را تا حد ممکن حفظ میکند.
در حالی که تصویر Gemini چشمگیرتر است، من فکر می کنم گروک به چیزی که در ذهن داشتم نزدیک تر می شود. روباه بسیار واقعی تر از تصویر جمینی است.
2. آشپزخانه در عمل
اعلان: “از آشپزخانه یک سرآشپز حرفه ای در طول عجله شام، با بخار بلند شده از گلدان ها و شعله های آتش از ایستگاه کباب پز، یک رندر به سبک عکس ایجاد کنید.”
این طراحی شده است تا نشان دهد آنها چقدر می توانند تجهیزات آشپزخانه را نشان دهند، دستورالعمل ها را دنبال کنند و عناصری مانند گرما و رطوبت را مدیریت کنند. باید یک غذا و نگرش تجاری را نشان دهد، اما همچنین ایده رویداد را ارائه دهد.
گروک این یکی را به راحتی برنده شد، زیرا جمینی نمیتوانست زمینه درخواستی را که ما انتظار داریم یک سرآشپز در آشپزخانه داشته باشد، درک کند.
3. پیشرفت سایت ساخت و ساز
اعلان: «تصویری به سبک عکاسی مستند از یک ساختمان متوسط در حال ساخت ایجاد کنید، با کارگرانی که پانلهای شیشهای را نصب میکنند تا جرثقیلها در یک بعدازظهر صاف بالای سرشان کار کنند.»
هدف این اعلان این است که ببیند چقدر خوب میتواند پرسپکتیو را نمایش دهد زیرا نیاز به نشان دادن ارتفاع و موقعیت دارد. همچنین باید خواص مواد را نشان دهد و تا حد امکان واقعی باشد. من سبک مستند را ترجیح دادم زیرا پیچیدگی بیشتری میافزاید.
تصویر Gemini بسیار واقعیتر از Grok به نظر میرسد، زیرا هیچ کارگری در آن دیده نمیشود و فقط نمای وسیعی را نشان میدهد.
4. صبح بازار کشاورزان
اعلان: «یک تصویر به سبک عکاسی از گوشی هوشمند از یک بازار شلوغ کشاورزان در ساعت 7 صبح ایجاد کنید، جایی که فروشندگان غرفهها را راهاندازی میکنند و اولین مشتریان محصولات تازه را مطالعه میکنند.»
با این مقایسه، مدل ها باید زمان روز (نورپردازی صحیح)، تازگی محصول و تعامل انسان را نشان دهند. من به دنبال طول سایه و سطح فعالیت هستم.
این سخت ترین تماس برای من بود. من ظاهر طبیعی تصویر Gemini را ترجیح میدهم، اما فکر میکنم Grok نور و زمان روز را با دقت بیشتری ثبت میکند.
5. تشخیص خودکار تعمیر
اعلان: «با استفاده از ابزار تشخیصی روی یک ماشین مدرن، با کاپوت باز و محفظه موتور قابل مشاهده، یک عکس سیاه و سفید به سبک یکپارچهسازی با سیستمعامل از مکانیک ایجاد کنید.»
میخواستم ببینم هر دو مدل چقدر عکاسی سیاه و سفید را انجام میدهند. این همچنین باید ابزار دقیق، روشنایی و جزئیات موتور را نشان دهد.
باز هم، این یک تماس نزدیک بین دو تصویر بود، اما من این یکی را به Gemini می دهم زیرا جزئیات موتور را با دقت بیشتری نشان می دهد.
6. واکنش اضطراری
اعلان: «برای من یک عکس اکشن از امدادگرانی که در حال مداوای یک بیمار در یک خیابان محله هستند در حالی که پلیس ترافیک اطراف صحنه را هدایت میکند، تهیه کنید.»
عکاسی اکشن یک شغل چالش برانگیز است. من این کار را برای مدتی (نه خیلی خوب) به عنوان یک روزنامه نگار در اوایل کارم انجام دادم. ما باید موقعیت مناسب، اقدامات ایمنی عمومی و احساس فوریت را در تصویر نشان دهیم.
Gemini با دستور بسیار نزدیک تر مطابقت داشت و تصویری واقعی تر ایجاد کرد. تصمیم آسانی بود.
7. برنامه اجرای ویولن
درخواست: «تصویری به سبک عکس از یک ویولونیست که به تنهایی در اتاقی در هنگام غروب خورشید تمرین میکند، با نتهای موسیقی قابل مشاهده روی پایه ایجاد کنید.»
بالاخره یه چیز هنری تر در اینجا می خواهیم موقعیت دست برای ویولن، جلوه های نور طبیعی و کیفیت نت ها را ببینیم.
یکی از آنها شبیه جلد یک آلبوم کلاسیک است، دیگری شبیه عکس شخصی در حال نواختن ویولن است. وقتی درخواست از کسی برای تمرین خواست، برد را به گروک دادم.
برنده: جمینی در مقابل گروک
سلول سرصفحه – ستون 0 | گروک | جوزا |
---|---|---|
روباه در شهر | ⭐️ | ردیف 0 – سلول 2 |
آشپز در آشپزخانه | ⭐️ | ردیف 1 – سلول 2 |
ساختار | ردیف 2 – سلول 1 | ⭐️ |
بازار کشاورزان | ⭐️ | ردیف 3 – سلول 2 |
تعمیر خودرو | ردیف 4 – سلول 1 | ⭐️ |
واکنش اضطراری | ردیف 5 – سلول 1 | ⭐️ |
تمرین ویولن | ⭐️ | ردیف 6 – سلول 2 |
مجموع | 4 | 3 |
گروک بسیار تاثیرگذار است. نه تنها به عنوان یک چت بات، بلکه از نظر توانایی آن در ایجاد تصاویر واقعی. این چیزی از Imagen 3 که در نوع خود بسیار چشمگیر است، کم نمی کند، اما عادت دارد بیش از حد شیک باشد.
یک برخورد نزدیک بود. هر دو مدل تقریباً یکسان هستند، اما Grok در تفسیر یک اعلان بهتر است و تصاویر طبیعی تری ایجاد می کند.
قابل توجه است که گوگل به زودی نسخه جدیدی از Gemini را منتشر خواهد کرد که می تواند تصاویر را به صورت بومی ارائه کند. این بدان معنی است که او مجبور نیست از Imagen 3 برای ایجاد تصاویر استفاده کند، او می تواند این کار را به تنهایی انجام دهد.