من فقط Pika 2 را تست کردم و بهترین سازنده ویدیو با هوش مصنوعی تا کنون و بهتر از Sora است
Pika Labs نسخه 2 مدل ویدیویی قدرتمند هوش مصنوعی خود را هفته گذشته معرفی کرد. این نسخه نه تنها حرکت و واقع گرایی بهبود یافته، بلکه مجموعه ای از ابزارها را به ارمغان می آورد که آن را به یکی از بهترین پلتفرمرها در نوع خود تبدیل می کند. هوش مصنوعی
با پیادهسازی ویژگیهایی با هدف سادهسازی فرآیند ایجاد ویدیوهای هوش مصنوعی غریبه نیست، ویژگیهای جدید در Pika 2 شامل ویدیوهایی است که بیشتر با ایدههای شما مطابقت دارد، قالبهایی با ساختارهای از پیش ساخته شده، و افزودن «مواد تشکیل دهنده» به ترکیب برای ایجاد Pikaffects بیشتر. .
Pikaffects اولین تلاش آزمایشگاه هوش مصنوعی برای این نوع کنترلپذیری پیشرفته بود و شرکتهایی مانند Fenty و Balenciaga و همچنین افراد مشهور و افراد را مشاهده کرد که ویدیوهایی از محصولات، مکانهای دیدنی و اشیاء در حال له شدن، انفجار و انفجار را به اشتراک گذاشتند.
در ظاهر، ممکن است به نظر برسد که Pika Labs از ترفندها و ترفندهایی برای پنهان کردن کمبود قدرت مدل پایه خود استفاده می کند، اما هیچ چیز نمی تواند دور از واقعیت باشد. در آزمایش من در آخر هفته، حتی بدون این ویژگی ها، ویدیوهای تولید شده توسط Pika با بهترین مدل های موجود در صحنه، از جمله Kling، MiniMax، Runway و حتی Sora قابل مقایسه بودند.
آزمایش Pika 2.0
تماشا کنید
تست روی Pika 2.0 کمی متفاوت از رویکرد من به هر مدل دیگری است. معمولاً، وقتی ابزارهای ویدیویی هوش مصنوعی را آزمایش میکنم، مجموعهای از دستورات را ایجاد و اجرا میکنم، برخی با تصاویر، برخی بدون. اما بیشتر قدرت پیکا از این ویژگی های اضافی ناشی می شود.
تصمیم گرفتم کار را با دیدن اینکه چقدر خوب با یک اعلان ساده تصویر به ویدیو و سپس یک اعلان متن به ویدیو کار می کند شروع کنم. من یک تصویر ایجاد شده در Midjourney با یک دستور توصیفی ساده به آن دادم و سپس از همان دستوری که در Midjourney استفاده کردم استفاده کردم تا ببینم Pika چقدر می تواند تصاویر را به خوبی ارائه کند.
سگی در قطار با عینک آفتابی
پیشنهاد مسابقه مورد علاقه من برای ویدیوی هوش مصنوعی این است: “سگی با عینک آفتابی در حال سفر در قطار.” این به این دلیل است که اکثر مدل ها به خوبی از عهده این کار بر می آیند اما آن را به روش های مختلفی تفسیر می کنند.
این مدل همچنین نیاز به ایجاد یک سگ واقعی با عینک آفتابی دارد. این غیرعادی است. علاوه بر این، باید حرکتی دقیق و سریع در خارج ایجاد کند و در عین حال پنجره را در داخل نگه دارد.
برخلاف سورا یا کلینگ، پیکا با ثابت نگه داشتن سگ روی مبل، سگ را ثابت نگه داشت. علاوه بر این، عکس دوم در این ویدیوی پنج ثانیه ای ایجاد شد که روی صورت سگ زوم کرده و عینک آفتابی آن را نشان می دهد.
با تغییر مسیر ساده تصویر به ویدیو با استفاده از یک تصویر Midjourney خوب عمل نکرد، اما زمانی که من همان دستور را با استفاده از تصویر بهعنوان زمینه به جای درخواست امتحان کردم، به طور قابل توجهی بهتر عمل کرد.
قرار دادن خودم در موقعیت های مختلف
چندی پیش مقاله ای نوشتم که در آن مدل را با عکس های خودم با استفاده از اسپرایت های ثابت FreePic تنظیم کردم. من توانستم از این برای قرار دادن خودم در موقعیتهای مختلف با استفاده از مدلهای تصویر به ویدیو استفاده کنم و تصمیم گرفتم این کار را با Pika Labs 2.0 امتحان کنم.
من با عکسی شروع کردم که از خودم درست کردم که در خیابان اصلی ایالات متحده به سبک دهه 1950 ایستاده بودم و یک بشقاب پرنده کلیشه ای در پس زمینه خودنمایی می کرد. من با لباس کامل، آماده عمل بودم، و آن را به عنوان بخشی از یک غرفه روی صحنه به Pika 2.0 دادم. من مطمئن نبودم که او این را چگونه تفسیر می کند یا آیا او فقط شبیه من را می گیرد و بقیه تصاویر را نادیده می گیرد.
مدل کار عالی انجام داد. ایجاد دو حرکت دوربین. او ابتدا روی من تمرکز کرد، سپس برای گرفتن یک عکس واید که یوفوی متحرک را ثبت کرد، زوم کرد. او موفق شد چندین عنصر را در حرکت نگه دارد و در عین حال زیبایی شناسی تصویر را در طول کلیپ ویدیویی کوتاه حفظ کند.
سپس چیز پیچیده تری را امتحان کردم. من تصویری از خودم که توسط هوش مصنوعی ایجاد شده بود روی پسزمینهای سفید به او دادم (چه کسی باید برای عکس گرفتن عکس بگیرد؟) و یک تصویر رندر شده از فضای داخلی پایگاه احتمالی مریخ.
برای محتوا، دو عکس و اعلان “کار روی مریخ” را دادم. ویدیویی از لبخند زدن و قدم زدن من در اطراف ایجاد کرد. سپس عکسی از یک کت و شلوار بالقوه که می تواند توسط ساکنان مریخ پوشیده شود را به او دادم، اما مدل آن را به عنوان یک ربات تفسیر کرد و به لباس یک سر داد. هنوز هم عالی به نظر می رسید.
با استفاده از ویدئو هوش مصنوعی هویت ایجاد کنید
در نهایت، تصمیم گرفتم ببینم که چگونه یکی از اولین درخواستهای ویدیویی هوش مصنوعی من مدیریت میشود: «گربهای روی ماه که لباس فضایی پوشیده است، با طلوع زمین در پسزمینه». این چیزی بود که همه مدلهای ویدیویی هوش مصنوعی به شدت در آن شکست خوردند و اکثر مدلهای نمایشگر نیز با آن دست و پنجه نرم کردند.
ابتدا با استفاده از این فرمان یک تصویر در Ideogram ایجاد کردم. اکنون یکی از تصاویر مورد علاقه من در تمام دوران است و قصد دارم آن را به صورت پوستر چاپ کنم. سپس من این را به Pika 2.0 به عنوان یک مؤلفه برای تولید ویدیو با هوش مصنوعی بدون هیچ گونه درخواست اضافی صادر کردم. شبیه شناسه استودیویی برای یک فیلم جدید بود.
من همان دستور را با تبدیل متن به ویدیو امتحان کردم و کار نکرد و یک ابر زمین دوم در پسزمینه به ما داد، اما باز هم بهتر از قبل.
افکار نهایی
Pika 2.0 نه تنها یک ارتقاء قابل توجه نسبت به مدل نسل قبلی است، بلکه آزمایشگاه ویدیویی هوش مصنوعی را به عنوان یکی از بهترین پلتفرمهای بازار در جایگاهی برتر قرار میدهد.
هنگامی که هفته گذشته سورا برای اولین بار معرفی شد، راهنمای بهترین جایگزین های سورا نوشتم و پیکا را از لیست خارج کردم. در حالی که مدل 1.5 خوب بود، به خصوص وقتی با Pikaffects استفاده می شد، به خوبی جایگزین ها نبود. حالا به نظرم باید بهترین جایگزین راهنمای پیکا را بنویسم چون به نظر من از سورا بهتر است.
جدای از رقابت، فکر میکنم شگفتانگیز است که ویدیوهای هوش مصنوعی در کمتر از یک سال چقدر پیشرفت کردهاند، از 2 ثانیهای که به سختی در حال حرکت است تا محتوایی که شبیه چیزی است که با دوربین واقعی گرفته شده است، تا محتوایی با کنترل تقریباً کامل بر خروجی.