من فقط Pika 2 را تست کردم و بهترین سازنده ویدیو با هوش مصنوعی تا کنون و بهتر از Sora است

پروین میرمیران18 دسامبر 2024آخرین به روز رسانی: 18 دسامبر 2024

0 2,666 خواندن این مطلب 4 دقیقه زمان میبرد

من فقط Pika 2 را تست کردم و بهترین سازنده ویدیو با هوش مصنوعی تا کنون و بهتر از Sora است

Pika Labs نسخه 2 مدل ویدیویی قدرتمند هوش مصنوعی خود را هفته گذشته معرفی کرد. این نسخه نه تنها حرکت و واقع گرایی بهبود یافته، بلکه مجموعه ای از ابزارها را به ارمغان می آورد که آن را به یکی از بهترین پلتفرمرها در نوع خود تبدیل می کند. هوش مصنوعی

با پیاده‌سازی ویژگی‌هایی با هدف ساده‌سازی فرآیند ایجاد ویدیوهای هوش مصنوعی غریبه نیست، ویژگی‌های جدید در Pika 2 شامل ویدیوهایی است که بیشتر با ایده‌های شما مطابقت دارد، قالب‌هایی با ساختارهای از پیش ساخته شده، و افزودن «مواد تشکیل دهنده» به ترکیب برای ایجاد Pikaffects بیشتر. .

Pikaffects اولین تلاش آزمایشگاه هوش مصنوعی برای این نوع کنترل‌پذیری پیشرفته بود و شرکت‌هایی مانند Fenty و Balenciaga و همچنین افراد مشهور و افراد را مشاهده کرد که ویدیوهایی از محصولات، مکان‌های دیدنی و اشیاء در حال له شدن، انفجار و انفجار را به اشتراک گذاشتند.

در ظاهر، ممکن است به نظر برسد که Pika Labs از ترفندها و ترفندهایی برای پنهان کردن کمبود قدرت مدل پایه خود استفاده می کند، اما هیچ چیز نمی تواند دور از واقعیت باشد. در آزمایش من در آخر هفته، حتی بدون این ویژگی ها، ویدیوهای تولید شده توسط Pika با بهترین مدل های موجود در صحنه، از جمله Kling، MiniMax، Runway و حتی Sora قابل مقایسه بودند.

آزمایش Pika 2.0

بیگانگان در حومه شهرها – ویدیوی هوش مصنوعی – YouTube

تماشا کنید

تست روی Pika 2.0 کمی متفاوت از رویکرد من به هر مدل دیگری است. معمولاً، وقتی ابزارهای ویدیویی هوش مصنوعی را آزمایش می‌کنم، مجموعه‌ای از دستورات را ایجاد و اجرا می‌کنم، برخی با تصاویر، برخی بدون. اما بیشتر قدرت پیکا از این ویژگی های اضافی ناشی می شود.

تصمیم گرفتم کار را با دیدن اینکه چقدر خوب با یک اعلان ساده تصویر به ویدیو و سپس یک اعلان متن به ویدیو کار می کند شروع کنم. من یک تصویر ایجاد شده در Midjourney با یک دستور توصیفی ساده به آن دادم و سپس از همان دستوری که در Midjourney استفاده کردم استفاده کردم تا ببینم Pika چقدر می تواند تصاویر را به خوبی ارائه کند.

سگی در قطار با عینک آفتابی

پیشنهاد مسابقه مورد علاقه من برای ویدیوی هوش مصنوعی این است: “سگی با عینک آفتابی در حال سفر در قطار.” این به این دلیل است که اکثر مدل ها به خوبی از عهده این کار بر می آیند اما آن را به روش های مختلفی تفسیر می کنند.

این مدل همچنین نیاز به ایجاد یک سگ واقعی با عینک آفتابی دارد. این غیرعادی است. علاوه بر این، باید حرکتی دقیق و سریع در خارج ایجاد کند و در عین حال پنجره را در داخل نگه دارد.

برخلاف سورا یا کلینگ، پیکا با ثابت نگه داشتن سگ روی مبل، سگ را ثابت نگه داشت. علاوه بر این، عکس دوم در این ویدیوی پنج ثانیه ای ایجاد شد که روی صورت سگ زوم کرده و عینک آفتابی آن را نشان می دهد.

با تغییر مسیر ساده تصویر به ویدیو با استفاده از یک تصویر Midjourney خوب عمل نکرد، اما زمانی که من همان دستور را با استفاده از تصویر به‌عنوان زمینه به جای درخواست امتحان کردم، به طور قابل توجهی بهتر عمل کرد.

قرار دادن خودم در موقعیت های مختلف

چندی پیش مقاله ای نوشتم که در آن مدل را با عکس های خودم با استفاده از اسپرایت های ثابت FreePic تنظیم کردم. من توانستم از این برای قرار دادن خودم در موقعیت‌های مختلف با استفاده از مدل‌های تصویر به ویدیو استفاده کنم و تصمیم گرفتم این کار را با Pika Labs 2.0 امتحان کنم.

من با عکسی شروع کردم که از خودم درست کردم که در خیابان اصلی ایالات متحده به سبک دهه 1950 ایستاده بودم و یک بشقاب پرنده کلیشه ای در پس زمینه خودنمایی می کرد. من با لباس کامل، آماده عمل بودم، و آن را به عنوان بخشی از یک غرفه روی صحنه به Pika 2.0 دادم. من مطمئن نبودم که او این را چگونه تفسیر می کند یا آیا او فقط شبیه من را می گیرد و بقیه تصاویر را نادیده می گیرد.

مدل کار عالی انجام داد. ایجاد دو حرکت دوربین. او ابتدا روی من تمرکز کرد، سپس برای گرفتن یک عکس واید که یوفوی متحرک را ثبت کرد، زوم کرد. او موفق شد چندین عنصر را در حرکت نگه دارد و در عین حال زیبایی شناسی تصویر را در طول کلیپ ویدیویی کوتاه حفظ کند.

سپس چیز پیچیده تری را امتحان کردم. من تصویری از خودم که توسط هوش مصنوعی ایجاد شده بود روی پس‌زمینه‌ای سفید به او دادم (چه کسی باید برای عکس گرفتن عکس بگیرد؟) و یک تصویر رندر شده از فضای داخلی پایگاه احتمالی مریخ.

برای محتوا، دو عکس و اعلان “کار روی مریخ” را دادم. ویدیویی از لبخند زدن و قدم زدن من در اطراف ایجاد کرد. سپس عکسی از یک کت و شلوار بالقوه که می تواند توسط ساکنان مریخ پوشیده شود را به او دادم، اما مدل آن را به عنوان یک ربات تفسیر کرد و به لباس یک سر داد. هنوز هم عالی به نظر می رسید.

با استفاده از ویدئو هوش مصنوعی هویت ایجاد کنید

در نهایت، تصمیم گرفتم ببینم که چگونه یکی از اولین درخواست‌های ویدیویی هوش مصنوعی من مدیریت می‌شود: «گربه‌ای روی ماه که لباس فضایی پوشیده است، با طلوع زمین در پس‌زمینه». این چیزی بود که همه مدل‌های ویدیویی هوش مصنوعی به شدت در آن شکست خوردند و اکثر مدل‌های نمایشگر نیز با آن دست و پنجه نرم کردند.

ابتدا با استفاده از این فرمان یک تصویر در Ideogram ایجاد کردم. اکنون یکی از تصاویر مورد علاقه من در تمام دوران است و قصد دارم آن را به صورت پوستر چاپ کنم. سپس من این را به Pika 2.0 به عنوان یک مؤلفه برای تولید ویدیو با هوش مصنوعی بدون هیچ گونه درخواست اضافی صادر کردم. شبیه شناسه استودیویی برای یک فیلم جدید بود.

من همان دستور را با تبدیل متن به ویدیو امتحان کردم و کار نکرد و یک ابر زمین دوم در پس‌زمینه به ما داد، اما باز هم بهتر از قبل.

افکار نهایی

Pika 2.0 نه تنها یک ارتقاء قابل توجه نسبت به مدل نسل قبلی است، بلکه آزمایشگاه ویدیویی هوش مصنوعی را به عنوان یکی از بهترین پلتفرم‌های بازار در جایگاهی برتر قرار می‌دهد.

هنگامی که هفته گذشته سورا برای اولین بار معرفی شد، راهنمای بهترین جایگزین های سورا نوشتم و پیکا را از لیست خارج کردم. در حالی که مدل 1.5 خوب بود، به خصوص وقتی با Pikaffects استفاده می شد، به خوبی جایگزین ها نبود. حالا به نظرم باید بهترین جایگزین راهنمای پیکا را بنویسم چون به نظر من از سورا بهتر است.

جدای از رقابت، فکر می‌کنم شگفت‌انگیز است که ویدیوهای هوش مصنوعی در کمتر از یک سال چقدر پیشرفت کرده‌اند، از 2 ثانیه‌ای که به سختی در حال حرکت است تا محتوایی که شبیه چیزی است که با دوربین واقعی گرفته شده است، تا محتوایی با کنترل تقریباً کامل بر خروجی.