Gemini 3 یکی از بزرگترین مشکلات رندرهای هوش مصنوعی را حل کرد. به همین دلیل است که بسیار هیجان انگیز است

پروین میرمیراننوامبر 28, 2025آخرین به روز رسانی: نوامبر 28, 2025

2,669 خواندن این مطلب 3 دقیقه زمان میبرد

Gemini 3 یکی از بزرگترین مشکلات رندرهای هوش مصنوعی را حل کرد. به همین دلیل است که بسیار هیجان انگیز است

من اولین تولید کننده تصویر اصلی هوش مصنوعی، Dall-E را زمانی که برای اولین بار منتشر شد، آزمایش کردم. از آن زمان، من شاهد انفجار دنیای هوش مصنوعی مولد بودم، اما یک ویژگی همیشه مرا آزار می‌داد: متن در تصاویر.

از آنجایی که چهره‌ها واضح‌تر به نظر می‌رسیدند و دست‌ها به تعداد انگشتان مناسب می‌رسیدند، به نظر می‌رسید که هر مدل هنوز برای رندر کردن متن مشکل دارد.

اما از آنجایی که چهره‌ها واضح‌تر به نظر می‌رسند و دست‌ها به تعداد انگشتان مناسب می‌رسند، به نظر می‌رسد که هر مدل هنوز واقعاً با رندر متن مشکل دارد. چه روی یک پوستر، یک تابلو یا حتی یک تی شرت باشد، اغلب شبیه یک لکه غول پیکر از هیروگلیف به نظر می رسید.

مشکل با آخرین به روز رسانی ها ناپدید شد. ChatGPT می تواند متن را به طور قابل اعتمادی بازسازی کند، اما فقط تا حدی خاص، که اگر درخواست شما خیلی خاص شود، می تواند به سرعت منجر به خرابی شود.

سپس، در مراحل Gemini 3، یا به طور خاص تر، آخرین به روز رسانی گوگل به Nano Banana Pro، ارتقاء اصلی صفحه نمایش هوش مصنوعی آن است. این ارتقا بسیاری از بخش‌های مهم ابزار را بهبود بخشید، اما بزرگ‌ترین آن از نظر من بازسازی متن بود.

چیزهای جدید در Nano Banana Pro

(اعتبار تصویر: راهنمای تام)

Nano Banana Pro کیفیت تصویر را بهبود بخشید و توانایی مشاهده اینکه آیا یک تصویر توسط هوش مصنوعی ایجاد شده است را اضافه کرد. همچنین اکنون می تواند چندین تصویر مرجع را در یک محصول نهایی منسجم سازماندهی کند. علاوه بر این، اکنون می توانید متن در تصاویر را به زبان دیگری ترجمه کنید و همچنین تصاویر پیچیده مبتنی بر متن ایجاد کنید.

همانطور که ویرایشگر How-To ما، Kaycee Hill اشاره می کند، این آن را به ابزاری باورنکردنی برای ایجاد اینفوگرافیک تبدیل می کند. با یک دستور ساده، Gemini 3 می‌تواند یک اینفوگرافیک پیچیده با متن و تصاویر واضح که آن را توضیح می‌دهد، منتشر کند.

تولید تصویر Gemini

(اعتبار تصویر: Gemini)

اما فراتر از آن، مدل هوش مصنوعی اکنون فونت ها، رنگ های متن و اندازه ها را بهتر درک می کند. این به شما امکان می دهد حتی خلاقیت بیشتری نسبت به قبل داشته باشید و به شما این امکان را می دهد که اینفوگرافیک ها، برچسب ها و جلد مجلات خود را مانند قبل سفارشی کنید.

در یک مثال از Gemini، تصویر یک فضانورد به یک طرح داستانی با متن نوشته شده خوانا تبدیل می‌شود و تصویر مرجع به یک نقاشی تبدیل می‌شود.

در جای دیگر، جمینی یک مارک نوشیدنی انرژی زا ایجاد می کند که متن را به زبان انگلیسی روی قوطی قرار می دهد. سپس با استفاده از دستور «تمام متن انگلیسی در سه کادر زرد و آبی را به کره‌ای ترجمه کنید، همه چیز را یکسان نگه دارید»، کادرها تبدیل شدند و متن در همان مکان نگهداری شد و اکنون به سادگی ترجمه شده است.

جوزا

(اعتبار تصویر: Gemini)

آیا متن روی یک تصویر واقعا آنقدر هیجان انگیز است؟

جوزا

(اعتبار تصویر: Shutterstock)

در طول سال‌ها، هوش مصنوعی با چالش‌هایی روبه‌رو بوده که به وضوح نقاط ضعف آن را آشکار کرده است. رندرهای هوش مصنوعی برای مدتی نمی توانستند کار دستی انجام دهند، اما اکنون می توانند. سازندگان ویدیوهای هوش مصنوعی نتوانسته اند ماهیت پیچیده ژیمناستیک را بازسازی کنند، اما به سرعت در حال پیشرفت هستند. اکنون مولدهای تصویر هوش مصنوعی بالاخره می توانند متن را دریافت کنند.

این امر راه بزرگی را برای چنین وسایل نقلیه ای باز می کند که قبلاً غیرقابل اعتماد بودند. ترجمه متن در تصاویر، ایجاد اینفوگرافیک های دقیق و بازتولید قابل اعتماد فونت های مختلف در بسیاری از صنایع فوق العاده مفید است.

با بهبود این نوع فناوری، می توان از آن برای ایجاد استوری بورد، مجله یا پوستر به طور کامل از ابتدا استفاده کرد.

نه تنها این، بلکه این منطقه ای است که Gemini دارای یک مزیت بزرگ است و افرادی مانند ChatGPT را پشت سر می گذارد.

اخبار گوگل

دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.

اطلاعات بیشتر از راهنمای تام

بازگشت به لپ تاپ

نمایش بیشتر

پروین میرمیراننوامبر 28, 2025آخرین به روز رسانی: نوامبر 28, 2025

2,669 خواندن این مطلب 3 دقیقه زمان میبرد

Gemini 3 یکی از بزرگترین مشکلات رندرهای هوش مصنوعی را حل کرد. به همین دلیل است که بسیار هیجان انگیز است

پروین میرمیران

نیسان Z 2027 با ارتقای گران‌تر اما هوشمند عرضه می‌شود

Shiba Inu Coin Whale سکوت 8 ماهه را می شکند تا بی سر و صدا از SHIB در Binance سوء استفاده کند – U.Today

چه چیزی را تماشا کنیم: 3 بهترین نمایش جدید برای تماشا در Paramount+ در حال حاضر (24-26 ژوئیه)

کاهش 1917.11٪ جریان Cardano Spot Stream در چند ساعت، سیگنال بازار؟ – یو.امروز

پتانسیل ETF بیت کوین ژاپن: چرا هدف 18.4 میلیارد دلاری اغراق آمیز نیست – U.Today

145 میلیون شیبا اینو Netflow سیگنال افزایش می دهد – U.Today

بایننس سه توکن رمزنگاری را به ساعت حذف از فهرست اضافه می کند: چه کسی تحت تأثیر قرار می گیرد؟ – یو.امروز

کیا دارای 8 مدل در سال 2026 است

بهترین قاب‌های Samsung Galaxy Z Flip 8 برای محافظت از دستگاه تاشو جدید شما – از 19 دلار شروع می‌شود

جریان های نقطه ای XRP با وجود پویایی مثبت بازار 182 درصد افزایش یافت – U.Today