Google Veo 2 یکی از بهترین مدلهای ویدیویی هوش مصنوعی است که تا به حال دیدهام. در اینجا 5 نمونه از کارهایی که می تواند انجام دهد آورده شده است
گوگل یک آزمایشگاه هوش مصنوعی پیشرفته در قالب DeepMind دارد و این آزمایشگاه در چند هفته اخیر مشغول به کار بوده است. آخرین نسخه نسخه جدیدی از مدل ویدیویی Veo AI با دقیق ترین درک از فیزیک است که تاکنون در هر ابزار ویدیویی دیده ام.
اولین بار در Google I/O در اوایل سال جاری معرفی شد، Veo رقیب مستقیم OpenAI Sora برای تبدیل شدن به یکی از بهترین سازندگان ویدیوهای هوش مصنوعی است و نسخه جدید همه چیز را به سطح کاملاً جدیدی می برد.
Veo 2 بهبودهایی در واقع گرایی بصری و همچنین درک بهتر فیزیک به ارمغان می آورد و به شما امکان می دهد حرکت را با دقت بیشتری به تصویر بکشید. یک ویدیوی مثال نشان میدهد که فردی یک گوجهفرنگی را به درستی برش میدهد. این چیزی است که هیچ مدل ویدیویی دیگری از جمله Sora نمی تواند به آن دست یابد.
بهترین ویدیوهای Veo 2 AI که تاکنون پیدا کرده ام
مدل جدید Veo در حال حاضر هنوز در لیست انتظار است، اما میتوانید برای دسترسی به آن ثبتنام کنید، وقتی از طریق Google Labs در دسترس قرار گرفت. این نرم افزار که در آزمایش VideoFX تعبیه شده است، به شما امکان می دهد کلیپ های 4k تا یک دقیقه ایجاد کنید.
من خودم Veo 2 را امتحان نکردهام، اما ویدیوهای به اشتراکگذاشتهشده توسط Google (از جمله یکی که زنبورها را در اطراف زنبوردار نشان میدهد) واقعیتر از ویدیوهایی که من امتحان کردهام به نظر میرسند. حتی Pika 2.0 که یکی از بهترین هاست، مشکل فیزیک را حل نمی کند.
در حالی که منتظر بودم تا دسترسی پیدا کنم، در رسانه های اجتماعی و وب سایت Veo 2 نگاه کردم تا برخی از بهترین نمونه هایی را که می توانم از قابلیت های آنها پیدا کنم جمع آوری کنم.
من ویدیوی بالا را به دلیل نحوه تعامل پیچیده بین زنبورها و زنبوردار انتخاب کردم. زنبورها به طور طبیعی نگاه می کنند و حرکت می کنند و زنبوردار یک شیشه عسل را برمی دارد. این ممکن است بی اهمیت به نظر برسد، اما هر یک از این عناصر چیزی است که مدل های دیگر به تنهایی با آن دست و پنجه نرم می کنند.
هشدار گوگل: “دوربین به آرامی در میان ردیفهای کندوهای چوبی رنگآمیزی شده با پاستل میچرخد، زنبورهای عسل وزوز میزنند که به داخل و خارج کادر میچرخند. این حرکت بر روی کشاورز ظریفی تمرکز میکند که در مرکز ایستاده است، لباس بکر زنبورداری سفید او در بعد از ظهر طلایی میدرخشد. او یک شیشه عسل را بلند می کند و چراغ را روشن می کند.» پشت سر او، گل های آفتابگردان بلند به طور ریتمیک در باد تکان می خورند، گلبرگ هایشان زیر نور گرم خورشید می درخشند، در حالی که دوربین کمی کج می شود تا او را به تصویر بکشد. نور طلایی که با لنز 35 میلیمتری روی فیلم Kodak Portra 400 گرفته شده است، بافتهای غنی را روی دستکشهای کشاورز، شیشه مارمالاد و چوبهای هوازده کندوها ایجاد میکند.
چند سال پیش، OpenAI هنگامی که برای اولین بار مدل نمایشگر DALL-E 3 را معرفی کرد، از فلامینگو استفاده کرد. من نمی دانم که آیا این کار عمداً توسط گوگل انجام شده است یا خیر، اما چندین ویدیوی فلامینگو در نمونه ها وجود دارد. در اینجا آنها حرکت آب، وزن سگ و فیزیک مربوط به نور را به تصویر می کشند.
هشدار گوگل: “یک شات سینمایی یک کاکاپو کرکی را به تصویر میکشد که بر روی یک فلامینگوی صورتی داغ در استخر شنای لسآنجلس غرق شده در آفتاب نشسته است. آب شفاف زیر نور خورشید کالیفرنیا میدرخشد و صحنه بازیگوش را منعکس میکند. خز کاکائو، ترکیبی نرم از سفید و زردآلو، با نور طلایی خورشید برجسته شده است، گوشهای فلفلی آن به آرامی در نسیم تکان میخورند و حالت شاد و دم تکاندادهاش شادی و هیجان خالص را منتقل میکند. “منعکس کننده شادی تابستانی است. فلامینگوی صورتی پر جنب و جوش، لمس غریبی را اضافه می کند، و نمایشی عالی از سرگرمی بی دغدغه زیر آفتاب لس آنجلس ایجاد می کند.”
این درخواست مرا گرسنه کرد. به من اجازه داد قهوه درست کنم. به طور عجیبی، ریختن مایع چیزی است که سایر مدل ها با آن دست و پنجه نرم می کنند، اما Veo 2 این کار را به خوبی انجام می دهد.
هشدار گوگل: “خورشید به آرامی پس از یک صحنه صبحانه عالی طلوع می کند. شربت افرا ضخیم و طلایی با حرکت آهسته روی انبوهی از پنکیک های کرکی می ریزد که هر کدام ابری نرم و گرم از بخار ساطع می کنند. نمای نزدیک از بیکن ترد. قهوه شفاف است و با حرکتی روان و چرخشی داخل لیوان می ریزد و آن را با لایه هایی از کرم قهوه ای تیره پر می کند و بخش های براق و جذاب آن را با جزئیات ماکرو خیره کننده نشان می دهد.
مدلهای ویدیویی در به تصویر کشیدن احساسات بسیار بهتر شدهاند، اما کامل نیستند و برخی از دیگران بهتر هستند. این ویدیو نشان می دهد که Veo 2 یکی از خوب هاست.
هشدار از طرف گوگل: “یک نمای نزدیک شدید روی صورت یک دی جی زن تمرکز می کند؛ موهای مجعد مشکی زیبا و حجیم او ویژگی های او را قاب می کند زیرا کاملاً در موسیقی جذب می شود. چشمانش بسته است، در ضرب آهنگ گم می شود و لبخندی خفیف دارد. دوربین سرش را به سمت ضربان میچرخاند.» «در حالی که تاب میخورد، حرکات ظریف بدنش را به تصویر میکشد، زیرا به طور غریزی به موسیقی که از هدفونهایش میآید و به طرف جمعیت میپیچد، واکنش نشان میدهد. تا توسط رنگهای نئونی پر جنب و جوش احاطه شده است که بر حضور گیرا و قدرت موسیقی برای حمل و فراتر رفتن تأکید میکند.”
در نهایت این ویدیو با پیچیدگی هایش مرا مجذوب خود کرد. چیزهای زیادی در این کلیپ می گذرد که وضوح بصری و حرکت زیادی را ارائه می دهد. انعکاس، حرکت در آینه، حتی انعکاس شمع عناصری هستند که دیگران با آن سروکار دارند.
درخواست از Google: “دوربین در یک شات اسلوموشن حرکت میکند و شکوه اتاق کاخ رنسانس را نشان میدهد که با مبلمان طلادوزیشده، پردههای مخملی، و لوسترهایی که نور ملایم و سوسوزن را میتابانند تزیین شده است. ملکهای بیحرکت در سر میز طلاکاری شده با قرمزش نشسته است. لباس ابریشمی در حال آبشار است.»، لبههای آن با گذشت زمان پیچ خورده، دوربین او را از پشت قاب میکند، در حالی که درباریان در پسزمینه زمزمه میکنند، شبحهایشان در زیر نور شمع. اتاق احساس سنگینی میکند، هر جزئیات طلاکاری شده حال و هوای خیانت و پارانویا را افزایش میدهد، تغییر نور بین رنگهای قرمز عمیق و زیبا و طلایی سرد با کیاروسکورو، فیلمبرداری شده روی فیلم 70 میلیمتری برای بافتی غنی که عظمت شاهکارهای تاریخی را تداعی میکند.