من به تازگی 5 تصویر با Google Gemini ایجاد کردم و هم مرا تحت تاثیر قرار داد و هم آزارم داد

پروین میرمیران11 اکتبر 2024آخرین به روز رسانی: 11 اکتبر 2024

0 2,672 خواندن این مطلب 4 دقیقه زمان میبرد

من به تازگی 5 تصویر با Google Gemini ایجاد کردم و هم مرا تحت تاثیر قرار داد و هم آزارم داد

Imagen 3 گوگل بالاخره وارد Gemini شد و در حال حاضر با توانایی خود برای ایجاد تصاویری خیره کننده بر اساس دستورات ساده، موج ایجاد کرده است. گوگل می گوید این “با کیفیت ترین مدل رندر تا کنون” است و من نمی توانستم منتظر بمانم تا پتانسیل کامل آن را کشف کنم.

مولدهای تصویر مبتنی بر هوش مصنوعی در حال تسلط بر چشم انداز هوش مصنوعی هستند و مدل هایی مانند ChatGPT و Midjourney’s DALL-E 3 بیشترین توجه را به خود جلب می کنند. Gemini قبلاً به Imagen 2 دسترسی داشت اما پس از برخی مشکلات عملکرد حذف شد.

مدل جدید که توسط آزمایشگاه هوش مصنوعی DeepMind گوگل ایجاد شده است، با رویکرد پیشرفته خود به خلاقیت بصری، دیدگاه جدیدی در مورد این فرآیند ارائه می دهد.

هدف من این بود که ببینم چقدر دستورات مختلف، از بافت سوشی گرفته تا ویژگی های پیچیده صورت انسان را به خوبی اجرا می کند. من تحت تأثیر رندرهای واقع گرایانه آن قرار گرفتم، اما با برخی از ویژگی های عجیب و غریب روبرو شدم که به من یادآوری کرد که این هنوز یک فناوری در حال تکامل است. در اینجا چیزی است که برجسته است.

درخواست ایجاد کنید

استفاده از Imagen 3 گوگل جمینی ساده است. رابط بصری است و من دوست دارم که اجازه تنظیمات یا بازسازی سریع را می دهد. بنابراین اگر نتیجه اولیه کامل نباشد، تکرار آن بدون شروع از ابتدا آسان است. این تعادل بین سرعت و انعطاف پذیری خلاقیت و اکتشاف را تشویق می کند.

تصمیم گرفتم ترکیبی از اعلان های دقیق و باز را امتحان کنم. فکر می‌کردم این بهترین راه برای آزمایش خلاقیت جمینی است تا مشخص شود که آیا به درخواست‌های مبهم یا واضح‌تر پاسخ بهتری می‌دهد. جالب اینجاست که در برخی موارد من تحت تاثیر تصاویر قرار می‌گرفتم، در حالی که در برخی مواقع متوجه کمبود مشخصی از تفاوت‌های ظریف بودم.

1. بشقاب سوشی

(اعتبار تصویر: آینده)

درخواست: “یک تصویر از یک بشقاب سوشی ایجاد کنید.”

من با یک چیز ساده شروع کردم. یک بشقاب سوشی جمینی تصویری با جزئیات زیبا با رنگ‌ها و بافت‌های زنده ایجاد کرده است که باعث می‌شود سوشی اشتها آور به نظر برسد.

من به طرز باورنکردنی تحت تاثیر جزئیات قرار گرفتم و اینکه سوشی چگونه از چاپی در یک مجله گرفته شده بود. اما همچنان فاقد خلاقیتی بود که من انتظارش را داشتم، زیرا تصویر بسیار عمومی به نظر می رسید. بله، رئالیسم چشمگیر بود، اما آنچنان که انتظار داشتم، از مرزها عبور نکرد و تنوع سبک هنری را به نمایش گذاشت.

2. اتاق نشیمن دنج

اسکرین شات تصویر اتاق نشیمن Imagen 3

(اعتبار تصویر: آینده)

اعلان: “یک تصویر اتاق نشیمن دنج ایجاد کنید.”

تصمیم گرفتم در این مورد کمی مبهم تر باشم تا ببینم جمینی چه چیزی خلق خواهد کرد. نتیجه خنده دار بود. مبلمان قدیمی، نورپردازی خشن، طرح‌های رنگی خاموش، و اوه، آره، لوستر حال و هوای مورد انتظار من را ایجاد نکرد.

وقتی می گویم “دنج” منظورم یک مبل بزرگ و راحت، پنجره های بزرگ، نور ملایم و یک پتوی گرم است. این منظره کاملاً غیرعادی بود، اما من هنوز تحت تأثیر جزئیات، قرارگیری اشیا و زیبایی شناسی کلی اتاق بودم – حتی اگر اتاق مورد نظر من نبود.

3. ببر با شکوه در طبیعت

تصویر 3 تصویر ببر

(اعتبار تصویر: آینده)

دستور: “تصویری از یک ببر با شکوه در طبیعت بسازید.”

برای نقاشی حیوانات، من یک ببر با شکوه در طبیعت می خواستم. هوش مصنوعی با جزئیات خز تحویل داده شد، اما تا آنجا که من متوجه شدم، هیچ محیط طبیعی وجود نداشت. او شبیه ببری بود که از مدرسه عکس می گیرد.

اشتباه نکنید، این یک تصویر بصری قابل توجه است. با این حال، چهره ببر ظاهر کمی غیر طبیعی داشت که از ترکیب چشمگیر منحرف شد. در جایی که هوش مصنوعی در بافت ها برتری دارد، فاقد بیان احساسی است.

4. پوستر فیلم سبک رترو

تصویر پوستر فیلم Imagen 3

(اعتبار تصویر: آینده)

درخواست: “یک پوستر فیلم به سبک یکپارچهسازی با سیستمعامل ایجاد کنید”

به نظر من، این تصویر جایی است که Imagen واقعاً می درخشد. این کار را با طراحی واقعاً چشم نواز تکمیل کرد. خیلی زیباست من این طرح را روی تی شرت می پوشم.

فونت پررنگ با رنگ‌های پر جنب و جوش که به سمت لبه‌ها محو می‌شوند، حال و هوای یکپارچهسازی با سیستمعامل واقعی را ایجاد کردند. خلاقیت در اینجا ساده بود، اما به نظر می رسید هنوز تفاوت های ظریف طراحی پوستر Gemini را درک می کند. از بین تمام تصاویری که تاکنون تولید کرده ام، این رضایت بخش ترین است.

5. شهر نیویورک

Imagen 3 تصویر نیویورک

(اعتبار تصویر: آینده)

Command Prompt: “یک تصویر از نیویورک ایجاد کنید”

بالاخره می خواستم ببینم در معماری چگونه خواهد بود و به نیویورک رفتم. جمینی یک تصویر فوق واقع گرایانه ایجاد کرد که می تواند یک عکس باشد.

این تصویر از نظر فنی رندر فوق‌العاده‌ای از خط افق بود، اما خود آسمان تقریباً بیش از حد عالی به نظر می‌رسید، عاری از هر گونه نقصی که ممکن است باعث شود کمتر احساس شود که هوش مصنوعی تولید شده است. اگرچه تصویر چشمگیر بود، اما کاملاً از مرز واقع گرایی باورپذیر عبور نکرد.

افکار نهایی

به طور کلی من تحت تاثیر Imagen جمینی قرار گرفتم. جزئیات، بافت و زیبایی طراحی بسیار شگفت انگیز بود. با این حال، واضح است که برای مشخص کردن تصویر نهایی به راهنمایی بیشتری نیاز است. او با خواسته های ظریف تری دست و پنجه نرم می کند و به نظر می رسد قادر به خلق تفاسیر منحصر به فرد و هنری نیست.

من دوست دارم که Imagen رایگان است، اما توجه داشته باشید که نسخه اصلی هنوز نمی تواند افراد، پرتره ها، چهره ها را ایجاد کند. اگر به دنبال این ویژگی هستید، باید Gemini Advanced را انتخاب کنید که می توانید آن را به مدت یک ماه به صورت رایگان امتحان کنید. به عنوان یک امتیاز، برخلاف ChatGPT، تصاویر به صورت jpg ذخیره می شوند.

Imagen وعده های زیادی را نشان می دهد و با به روز رسانی های مداوم می تواند به یک ابزار خلاقانه قدرتمند تبدیل شود. اما در حال حاضر، برخی از جنبه‌ها کمی رباتیک و کمی حشره‌دار به نظر می‌رسند، که جای پیشرفت را باقی می‌گذارد.