Gemini 3 یکی از بزرگترین مشکلات رندرهای هوش مصنوعی را حل کرد. به همین دلیل است که بسیار هیجان انگیز است

من اولین تولید کننده تصویر اصلی هوش مصنوعی، Dall-E را زمانی که برای اولین بار منتشر شد، آزمایش کردم. از آن زمان، من شاهد انفجار دنیای هوش مصنوعی مولد بودم، اما یک ویژگی همیشه مرا آزار میداد: متن در تصاویر.
از آنجایی که چهرهها واضحتر به نظر میرسیدند و دستها به تعداد انگشتان مناسب میرسیدند، به نظر میرسید که هر مدل هنوز برای رندر کردن متن مشکل دارد.
اما از آنجایی که چهرهها واضحتر به نظر میرسند و دستها به تعداد انگشتان مناسب میرسند، به نظر میرسد که هر مدل هنوز واقعاً با رندر متن مشکل دارد. چه روی یک پوستر، یک تابلو یا حتی یک تی شرت باشد، اغلب شبیه یک لکه غول پیکر از هیروگلیف به نظر می رسید.
مشکل با آخرین به روز رسانی ها ناپدید شد. ChatGPT می تواند متن را به طور قابل اعتمادی بازسازی کند، اما فقط تا حدی خاص، که اگر درخواست شما خیلی خاص شود، می تواند به سرعت منجر به خرابی شود.
سپس، در مراحل Gemini 3، یا به طور خاص تر، آخرین به روز رسانی گوگل به Nano Banana Pro، ارتقاء اصلی صفحه نمایش هوش مصنوعی آن است. این ارتقا بسیاری از بخشهای مهم ابزار را بهبود بخشید، اما بزرگترین آن از نظر من بازسازی متن بود.
چیزهای جدید در Nano Banana Pro
Nano Banana Pro کیفیت تصویر را بهبود بخشید و توانایی مشاهده اینکه آیا یک تصویر توسط هوش مصنوعی ایجاد شده است را اضافه کرد. همچنین اکنون می تواند چندین تصویر مرجع را در یک محصول نهایی منسجم سازماندهی کند. علاوه بر این، اکنون می توانید متن در تصاویر را به زبان دیگری ترجمه کنید و همچنین تصاویر پیچیده مبتنی بر متن ایجاد کنید.
همانطور که ویرایشگر How-To ما، Kaycee Hill اشاره می کند، این آن را به ابزاری باورنکردنی برای ایجاد اینفوگرافیک تبدیل می کند. با یک دستور ساده، Gemini 3 میتواند یک اینفوگرافیک پیچیده با متن و تصاویر واضح که آن را توضیح میدهد، منتشر کند.
اما فراتر از آن، مدل هوش مصنوعی اکنون فونت ها، رنگ های متن و اندازه ها را بهتر درک می کند. این به شما امکان می دهد حتی خلاقیت بیشتری نسبت به قبل داشته باشید و به شما این امکان را می دهد که اینفوگرافیک ها، برچسب ها و جلد مجلات خود را مانند قبل سفارشی کنید.
در یک مثال از Gemini، تصویر یک فضانورد به یک طرح داستانی با متن نوشته شده خوانا تبدیل میشود و تصویر مرجع به یک نقاشی تبدیل میشود.
در جای دیگر، جمینی یک مارک نوشیدنی انرژی زا ایجاد می کند که متن را به زبان انگلیسی روی قوطی قرار می دهد. سپس با استفاده از دستور «تمام متن انگلیسی در سه کادر زرد و آبی را به کرهای ترجمه کنید، همه چیز را یکسان نگه دارید»، کادرها تبدیل شدند و متن در همان مکان نگهداری شد و اکنون به سادگی ترجمه شده است.
آیا متن روی یک تصویر واقعا آنقدر هیجان انگیز است؟
در طول سالها، هوش مصنوعی با چالشهایی روبهرو بوده که به وضوح نقاط ضعف آن را آشکار کرده است. رندرهای هوش مصنوعی برای مدتی نمی توانستند کار دستی انجام دهند، اما اکنون می توانند. سازندگان ویدیوهای هوش مصنوعی نتوانسته اند ماهیت پیچیده ژیمناستیک را بازسازی کنند، اما به سرعت در حال پیشرفت هستند. اکنون مولدهای تصویر هوش مصنوعی بالاخره می توانند متن را دریافت کنند.
این امر راه بزرگی را برای چنین وسایل نقلیه ای باز می کند که قبلاً غیرقابل اعتماد بودند. ترجمه متن در تصاویر، ایجاد اینفوگرافیک های دقیق و بازتولید قابل اعتماد فونت های مختلف در بسیاری از صنایع فوق العاده مفید است.
با بهبود این نوع فناوری، می توان از آن برای ایجاد استوری بورد، مجله یا پوستر به طور کامل از ابتدا استفاده کرد.
نه تنها این، بلکه این منطقه ای است که Gemini دارای یک مزیت بزرگ است و افرادی مانند ChatGPT را پشت سر می گذارد.
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.
اطلاعات بیشتر از راهنمای تام
بازگشت به لپ تاپ



