من یک “تست واقع گرایی” برای چهار رندر هوش مصنوعی گذاشتم و از برنده شگفت زده شدم
با توجه به What’s the Big Data، روزانه بیش از 34 میلیارد (بله، با B) تصویر هوش مصنوعی ایجاد می شود. کالایی شدن بازار آنقدر بد است که بسیاری از رندرهای هوش مصنوعی اکنون رایگان هستند. اگر این اعداد دیوانه کننده به نظر می رسند، به این دلیل است که واقعاً چنین هستند. به خصوص وقتی به یاد بیاورید که بازار تنها کمتر از دو سال پیش به درستی شروع به کار کرد.
به هر حال، این بانو یک برد بزرگ برای کاربران در سراسر جهان است. کیفیت تصویر همزمان با کاهش قیمت ها به شدت افزایش یافته است. بنابراین فکر کردیم وقت آن رسیده که نگاهی به چهار ژنراتور تصادفی بیندازیم، از جمله دو ژنراتور که در آخرین چالش 7 طرفه خود نادیده گرفتیم.
در اینجا ما Imagen 3 را از Google DeepMind، Flux از Black Forest Labs، Ideogram 2.0 و نسخههای جدیدتر مدلهای منبع باز با تجربه StableDiffusion را برای مرجع آزمایش میکنیم.
ما چهار دستور را به عنوان آزمایش اجرا کردیم تا ببینیم این چهار فناوری چگونه با یکدیگر مقایسه می شوند.
- در یک بازار خیابانی بارانی مدرن با غرفههای فروش مواد غذایی و عتیقهجات در شهر نیویورک، ۲۰۲۴، مرد جوانی با ژاکت بمبافکن چیزی از غرفه میخرد.
- عکس مد از یک آپارتمان پنت هاوس زیبا در سانفرانسیسکو، مبله شده با مبلمان مدرن گران قیمت و با منظره ای خیره کننده از خلیج.
- یک دختر جوان زیبا در یک باغ روستایی انگلیسی نشسته است، پشت میزی با کیک تولد روی آن نشسته و خانوادهاش با خوشحالی در اطراف او ایستادهاند تا روز خاص او را جشن بگیرند.
- عکس گروهی از فیل های باشکوه در حال عبور از چند اقامتگاه در ساوانای آفریقا. چند روستایی نشسته و ایستاده و به تماشای فیل ها می نشینند.
ایدئوگرام 2
Ideogram همچنان با کیفیت تصویر عالی و مهمتر از همه دستکاری متن به شدت تحت تاثیر قرار می دهد. برای مدت طولانی، اگر می خواستید یک تصویر هوش مصنوعی با متن ثابت ایجاد کنید، این تنها بازی در شهر بود.
زمان تغییر کرده است و اکنون پلتفرمهای بیشتری متن با کیفیت خوبی ارائه میدهند، اما Ideogram 2.0 وعده میدهد که بار دیگر سطح را بالا ببرد. هنوز هم از چند اشکال اینجا و آنجا رنج می برد، اما در کل کیفیت بصری عالی است. ایدهگرام برنده آخرین آزمون 7 دور ما شد.
تناسب سریع عالی است، رنگها و جزئیات عالی هستند و تصور کلی بسیار حرفهای است. با کمال تعجب، درخواستهای آزمایشی ما هیچ عنصر متنی را راهاندازی نکردند، اگرچه محصولات دیگر آن را به ترکیب اضافه کردند. نگران نباشید، اکنون می دانیم که Ideogram با متن چقدر خوب است.
تصویر 3
گوگل آخرین نسخه عالی از مدل تولید کننده تصویر با هوش مصنوعی Imagen 3 خود را منتشر کرده است و ناگهان جنگی واقعی بین سازندگان بزرگ تصویر رخ می دهد.
اما منصفانه است که بگوییم با وجود اینکه یکی از پیشگامان واقعی در زمینه هوش مصنوعی است، G بزرگ همچنان در فضای هوش مصنوعی بازی می کند.
ما قبلاً به اصول اولیه Imagen 3 پرداخته ایم و نسخه جدید جانشین شایسته ای است. نتایج بسیار خوب بود، اما از نظر کیفیت برجسته نبود. اما واقعاً ناامیدکننده است که گزارش دهیم علیرغم برخی نتایج عالی، حداقل یک خطای اعتدال باورنکردنی ژنراتور ناامید شده است.
او از ارائه تصویری از یک مهمانی در باغ خودداری کرد. هر چه تلاش کردیم به دلایلی نپذیرفت… کی میداند؟ نزدیکترین تصویر، تصویری با وضوح رقتانگیز از یک کیک روی میز کم نور بود. واقعا گوگل؟
فلاکس (Schnell)
شار شگفتی بزرگ در بلوک است. سورپرایز، زیرا از ناکجاآباد بیرون آمد، منبع باز است و در تولید تصاویر هوش مصنوعی کاملاً عالی است.
چیزی که چندان تعجب آور نیست این است که تیم توسعه از تیم اصلی StableDiffusion ساخته شده است. بنابراین تخصص میراث زیادی در بازی وجود دارد.
مدل Flux ما (از طریق fluximagegenerator.net) Schnell بود، یکی از سه مدل ارائه شده (دیگر Dev و Pro هستند).
همانطور که گفتیم، تصاویر هم از نظر یکنواختی ساختار تصویر و هم از نظر کیفیت، به طور یکنواخت زیبا بودند. عکس گرفتن سریع، وضوح تصویر، و عدم وجود انگشتان، صورت و متن مشکوک همه برجسته هستند و خبر از ورود یک میزبان تصویر جدید می دهند.
انتشار پایدار (SDXL)
ممکن است قدیمی باشد، اما خانواده مدلهای StableDiffusion هدیهای است که همچنان ادامه دارد. این تا حد زیادی محبوب ترین تولید کننده تصویر است (بیش از 12 میلیارد تصویر تاکنون ایجاد شده است)، و درست زمانی که فکر می کنید در آخرین مراحل خود است، یک LoRA یا توییک جدید ظاهر می شود که شما را مجذوب خود می کند. که خیلی دوستش دارم هوش مصنوعی انتشار کریتا ما آن را نصب کردیم و نتایج به طرز شگفت آوری محکم بود.
برای استفاده حداکثری از مدلها، باید LoRAهای افزودنی را برای مواردی مانند چهره و انگشتان دست و پا کنید، اما هنگامی که ترکیبی را پیدا کردید که کار میکند، واقعاً در برابر ابزارهای جدید مقاومت میکند. البته، از نظر رندر متن بسیار ضربه خورده است، بنابراین باید با چند اشکال اینجا و آنجا کنار بیایید. اینجاست که مدلهای دقیقی مانند Ideogram 2.0 وارد عمل میشوند.
برنده: Flux (Schnell)
این که بگوییم کاربران از نظر انتخاب ضعیف هستند، دست کم گرفتن است. نه تنها بازار تصویربرداری برای استفاده عمومی باز شده است، بلکه کیفیت و قیمت محصولات نیز به طور پیوسته با رشد فناوری بهبود یافته است. حتی بهتر از آن، این فناوری انحصاری نیست که در کل کار پیشگام است. محصولات منبع باز رایگان نه تنها خود را حفظ می کنند، بلکه مانند مورد Flux، پیشرو هستند. زمان شگفت انگیزی برای زنده بودن است.
دو شگفتی اصلی این خلاصه کوتاه، قدرت مداوم محصولات منبع باز و قدیمی مانند StableDiffusion SDXL و عملکرد شرم آور ضعیف بار دیگر گوگل است. این واقعیت که این نوع بازار به شدت مختل شده است نشان می دهد که یک مشکل عمیق در تیم توسعه هوش مصنوعی وجود دارد. صادقانه بگوییم، بسیار حیرت انگیز است.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide