لایتریکز از مدل ویدیویی AI منبع باز جدید با تمرکز چشمگیر روی سرعت و حرکت رونمایی کرد

پروین میرمیران22 نوامبر 2024آخرین به روز رسانی: 22 نوامبر 2024

0 2,664 خواندن این مطلب 3 دقیقه زمان میبرد

لایتریکز از مدل ویدیویی AI منبع باز جدید با تمرکز چشمگیر روی سرعت و حرکت رونمایی کرد

Lightricks، توسعه‌دهنده برنامه LTX Studio، Facetune و Videoleap، اولین مدل ویدیویی اختصاصی هوش مصنوعی خود را منتشر کرد: LTX Video 0.9. این منبع باز است و این شرکت ادعا می کند که می تواند یک ویدیوی پنج ثانیه ای با هوش مصنوعی تنها در چهار ثانیه ایجاد کند.

این شرکت می‌گوید که مدل جدید می‌تواند کلیپ‌هایی با درجه قابل‌توجهی از ثبات حرکتی و واقع‌گرایی ایجاد کند و این کار را کارآمدتر از سایر جایگزین‌های با اندازه مشابه انجام می‌دهد.

LTX Video به یک «خالق ویدیوی بی‌درنگ» گفته می‌شود که با بازخورد کاربران LTX Studio ساخته شده است، پلتفرمی که به شما امکان می‌دهد یک پروژه چند کلیپ را از یک درخواست ایجاد کنید.

این ویدیوی چهار پنج ثانیه ای با استفاده از پردازنده های گرافیکی Nvidia H100 و با وضوح 768 در 512 رندر شده است. این مدل بر روی یک Nvidia RTX 4090 استاندارد اجرا خواهد شد، اما در این مورد، رندر کردن ویدیو بیش از چهار ثانیه طول خواهد کشید.

زیو فاربمن، یکی از بنیانگذاران و مدیرعامل لایتریکز، گفت: «با اختصاصی شدن بسیاری از فناوری‌های هوش مصنوعی، ما معتقدیم که زمان آن رسیده است که یک مدل ویدیوی منبع باز که جامعه دانشگاهی و توسعه‌دهندگان جهانی می‌توانند بر اساس آن ایجاد کنند و به شکل‌دهی آینده ویدیوی هوش مصنوعی کمک کنند.»

LTX Video چگونه کار می کند؟

(اعتبار تصویر: LTX Video/Future AI)

به گفته Lightricks، LTX Video منبع باز است، دقیقاً مانند Mochi-1، و می‌تواند ویدیوها را با حفظ کیفیت و وفاداری حرکت به سرعت رندر کند.

ما Lightricks را با چشم انداز فشار دادن به مرزهای آنچه در خلاقیت دیجیتال ممکن است تأسیس کردیم تا به پل زدن بین تخیل و خلاقیت ادامه دهیم، در نهایت LTXV پیشگام شد، که به ما امکان می دهد محصولات بهتری را توسعه دهیم که نیازهای بسیاری از صنایع را با استفاده از آن برآورده می کند. فاربمن گفت.

ما هیجان‌زده‌ایم که ببینیم چگونه محققان و توسعه‌دهندگان در این مدل اولیه پیشرفت خواهند کرد.
یارون اینگر، مدیر ارشد فناوری لایتریکز

اجرای راحت چنین مدلی بر روی یک کامپیوتر بازی خوب گام بزرگی برای ویدیوهای هوش مصنوعی است و ما را به نقطه ای می رساند که می توان آن را در بازی ها یا ابزارهای ویرایش ویدیو برای رندر و پیش نمایش در زمان واقعی ادغام کرد.

این شرکت از معماری ترانسفورماتور توزیع ویدیو LTX خود قول “حرکت و ثبات بی نظیر ساخت” را می دهد. انتقال مداوم بین فریم های جداگانه در یک ویدیوی 5 ثانیه ای می تواند حرکت نرم تری ایجاد کند و انتقال را کاهش دهد.

به گفته یارون اینگر، مدیر ارشد فناوری لایتریکز، این کار باعث می‌شود در آینده مقیاس تولید ویدیوی طولانی‌تر انجام شود. او گفت که این کار طیف وسیع تری از موارد استفاده را نسبت به آنچه در حال حاضر امکان پذیر است را امکان پذیر می کند.

اینگر گفت: «قابلیت ایجاد سریع‌تر ویدیوها، برنامه‌هایی را فراتر از تولید محتوا، مانند بازی‌ها و تجربه‌های تعاملی برای خرید، یادگیری یا معاشرت، قادر می‌سازد. ”

LTXV چقدر خوب کار می کند؟

ویدئوی LTX

(اعتبار تصویر: LTX Video/Future AI)

من ویدیوی LTX را در یک پیش نمایش اولیه امتحان کردم و از کیفیت حرکت و همچنین خروجی بصری کلی تحت تأثیر قرار گرفتم. این به خوبی Kling یا Runway Gen-3 نیست، اما یک رقیب جدی برای یک مدل منبع باز است که می تواند به سرعت تولید کند.

این در حالت تصویر به ویدئو و متن به ویدئو موجود است. LTX Video را می‌توان برای کار با طول‌ها و رزولوشن‌های ویدئویی مختلف وفق داد که آن را در سناریوهای تولید مفید می‌کند.

در نهایت، از آنجایی که با وزن پایه کد و مدل کاملاً متن باز است، توسعه دهندگان دیگر می توانند مدل پایه را بسازند یا ارتقا دهند. ما این را در مدل های نمایشگر مانند Flux و Stable Diffusion دیده ایم. این منجر به طیف گسترده‌تری از قابلیت‌ها نسبت به یک شرکت می‌شود که به تنهایی می‌تواند توسعه دهد.

ویدئوهای این مقاله همگی با استفاده از LTX Video ایجاد شده‌اند و به همان سرعتی که انتظار دارید رندر می‌شوند. من هنوز اینها را به‌صورت آفلاین امتحان نکرده‌ام، اما اگر یک رایانه بازی به اندازه کافی خوب دارید، از طریق ComfyUI در دسترس هستند.

اگر کامپیوتر بازی ندارید، می توانید آن را از طریق HuggingFace و FAL.ai دریافت کنید.