هنگامی که من Janus Pro را در آزمون قرار دادم.

پروین میرمیران31 ژانویه 2025آخرین به روز رسانی: 31 ژانویه 2025

0 2,665 خواندن این مطلب 2 دقیقه زمان میبرد

Image generated using the Janus Pro artificial intelligence model

Deepseek یک رول است. R1 Chatgpt-Civaling از انفجار سبد اپل راضی نیست ، اما یک مدل چند حالته جدید به نام Janus Pro منتشر کرده است.

این مدل های جدید 1B و 7B می توانند نسل های تصویر را تکمیل کنند و تصاویر را که به طور فزاینده بخش مهمی از هوش مصنوعی مدرن هستند ، درک کنند.

من اکنون نگاهی به این آخرین پیشنهاد از داغترین شرکت هوش مصنوعی جهان انداخته ام.

اگر کنجکاو هستید که خودتان آن را امتحان کنید ، می توانید در Huggingface به مدل دسترسی پیدا کنید.

وعده

(وام تصویر: گتی تصاویر)

این دومین نسل از مدل Janus است و باید کیفیت تصویر پیشرفته و امکان پرداختن به متن را ارائه دهد.

تفاوت مهم دیگر این است که مدل جدید درک بصری را با ایجاد تصویر ترکیب می کند – بنابراین می توانید یک تصویر بارگذاری شده را “ببینید” و درک کنید.

این یک ترکیب معمولی با مدل های سنتی نیست. آنها آن را یک مولتیودال ترکیبی می نامند.

واقعی (در حال حاضر)

متأسفانه ، به نظر می رسد که تمام این فناوری به راه ایجاد یک محصول حذفی وارد شده است.

این مدل خیلی بد نیست ، فقط تولید تصویر دو ساله است. فراموش کردن چهره های انسانی ؛ بدترین تولید تصویر شکسته ، خم و اولیه هوش مصنوعی. به این فکر کنید که انتشار پایدار در سال 2023 چقدر است و می دانید که چرا من در مورد آن صحبت می کردم.

به نظر می رسد که همه ما در یک ماشین زمان ، به دو دوره بشریت بازگشتیم ، فقط در حال حاضر کل بدن.

این شرم آور است ، اما فکر می کنم نوآوری معمولاً با قیمتی حاصل می شود. من سعی کردم تصویری را تولید کنم که نزدیک به آخرین فناوری باشد و به روشی بدبخت شکست خورده است. مثالهای زیر را می توانید مشاهده کنید.

تصویر 1 پیوسته 5

تصویر ایجاد شده با استفاده از مدل هوش مصنوعی Janus Pro — تصاویر ایجاد شده با استفاده از مدل هوش مصنوعی Janus Pro(وام تصویر: Janus Pro / Tom's Guide)

خبر خوب این است که به نظر می رسد دید تصویر خوب کار می کند. من یک شلیک از کسی که به تلفن همراه در یک کافه نگاه می کرد بارگذاری کردم و دقیقاً آنچه را که در تصویر مدل اتفاق افتاده است توصیف کردم.

تصویر یک مرد در یک کافی شاپ در حال بررسی اطلاعاتی است که اطلاعات ایجاد شده توسط مدل Janus Pro AI را ایجاد می کند

(وام تصویر: Janus Pro / Tom's Guide)

با این حال ، این تقریباً هر مدل بینایی ، ثبت شده یا منبع باز ، در حال حاضر نمی تواند این کار را انجام دهد. حتی مدل Llava پایین ، که به اندازه کافی کوچک برای کار بر روی رایانه خانگی است ، می تواند این کار را انجام دهد.

خط پایین

پس این کجا ما را ترک می کند؟ چینی ها بار دیگر سعی کردند با طرح های مدل نوآوری کنند و در مواجهه با آن به خوبی. ترکیب تولید تصویر با امکان خواندن تصاویر ویژگی خوبی است.

با این حال ، کارت گزارش برای این آزمایش باید “بیشتر تلاش کند”.

من مطمئن نیستم که تصاویر نسخه ی نمایشی از وب سایت Deepseek چگونه یا از کجا دریافت می کنند ، و من از تصاویر متنی که این شرکت به آن می بالد ، حیرت زده ام.

البته اینها فقط مدل های کوچکی در پارامترهای 1b و 7b هستند ، اما با وجود این ، او امیدوار است که بهتر باشد. اگرچه آنها پیکربندی های مختلف ، درخواست های طولانی و درخواست های کوتاه را امتحان کردند ، اما من به جایی نزدیک نتایج نسخه ی نمایشی در سایت های آنها نرسیدم. این یک رمز و راز کامل است. شاید من پیشنهاد کنم که آنها به صفحه نقاشی برگردند؟