لایتریکز از مدل ویدیویی AI منبع باز جدید با تمرکز چشمگیر روی سرعت و حرکت رونمایی کرد
Lightricks، توسعهدهنده برنامه LTX Studio، Facetune و Videoleap، اولین مدل ویدیویی اختصاصی هوش مصنوعی خود را منتشر کرد: LTX Video 0.9. این منبع باز است و این شرکت ادعا می کند که می تواند یک ویدیوی پنج ثانیه ای با هوش مصنوعی تنها در چهار ثانیه ایجاد کند.
این شرکت میگوید که مدل جدید میتواند کلیپهایی با درجه قابلتوجهی از ثبات حرکتی و واقعگرایی ایجاد کند و این کار را کارآمدتر از سایر جایگزینهای با اندازه مشابه انجام میدهد.
LTX Video به یک «خالق ویدیوی بیدرنگ» گفته میشود که با بازخورد کاربران LTX Studio ساخته شده است، پلتفرمی که به شما امکان میدهد یک پروژه چند کلیپ را از یک درخواست ایجاد کنید.
این ویدیوی چهار پنج ثانیه ای با استفاده از پردازنده های گرافیکی Nvidia H100 و با وضوح 768 در 512 رندر شده است. این مدل بر روی یک Nvidia RTX 4090 استاندارد اجرا خواهد شد، اما در این مورد، رندر کردن ویدیو بیش از چهار ثانیه طول خواهد کشید.
زیو فاربمن، یکی از بنیانگذاران و مدیرعامل لایتریکز، گفت: «با اختصاصی شدن بسیاری از فناوریهای هوش مصنوعی، ما معتقدیم که زمان آن رسیده است که یک مدل ویدیوی منبع باز که جامعه دانشگاهی و توسعهدهندگان جهانی میتوانند بر اساس آن ایجاد کنند و به شکلدهی آینده ویدیوی هوش مصنوعی کمک کنند.»
LTX Video چگونه کار می کند؟
به گفته Lightricks، LTX Video منبع باز است، دقیقاً مانند Mochi-1، و میتواند ویدیوها را با حفظ کیفیت و وفاداری حرکت به سرعت رندر کند.
ما Lightricks را با چشم انداز فشار دادن به مرزهای آنچه در خلاقیت دیجیتال ممکن است تأسیس کردیم تا به پل زدن بین تخیل و خلاقیت ادامه دهیم، در نهایت LTXV پیشگام شد، که به ما امکان می دهد محصولات بهتری را توسعه دهیم که نیازهای بسیاری از صنایع را با استفاده از آن برآورده می کند. فاربمن گفت.
اجرای راحت چنین مدلی بر روی یک کامپیوتر بازی خوب گام بزرگی برای ویدیوهای هوش مصنوعی است و ما را به نقطه ای می رساند که می توان آن را در بازی ها یا ابزارهای ویرایش ویدیو برای رندر و پیش نمایش در زمان واقعی ادغام کرد.
این شرکت از معماری ترانسفورماتور توزیع ویدیو LTX خود قول “حرکت و ثبات بی نظیر ساخت” را می دهد. انتقال مداوم بین فریم های جداگانه در یک ویدیوی 5 ثانیه ای می تواند حرکت نرم تری ایجاد کند و انتقال را کاهش دهد.
به گفته یارون اینگر، مدیر ارشد فناوری لایتریکز، این کار باعث میشود در آینده مقیاس تولید ویدیوی طولانیتر انجام شود. او گفت که این کار طیف وسیع تری از موارد استفاده را نسبت به آنچه در حال حاضر امکان پذیر است را امکان پذیر می کند.
اینگر گفت: «قابلیت ایجاد سریعتر ویدیوها، برنامههایی را فراتر از تولید محتوا، مانند بازیها و تجربههای تعاملی برای خرید، یادگیری یا معاشرت، قادر میسازد. ”
LTXV چقدر خوب کار می کند؟
من ویدیوی LTX را در یک پیش نمایش اولیه امتحان کردم و از کیفیت حرکت و همچنین خروجی بصری کلی تحت تأثیر قرار گرفتم. این به خوبی Kling یا Runway Gen-3 نیست، اما یک رقیب جدی برای یک مدل منبع باز است که می تواند به سرعت تولید کند.
این در حالت تصویر به ویدئو و متن به ویدئو موجود است. LTX Video را میتوان برای کار با طولها و رزولوشنهای ویدئویی مختلف وفق داد که آن را در سناریوهای تولید مفید میکند.
در نهایت، از آنجایی که با وزن پایه کد و مدل کاملاً متن باز است، توسعه دهندگان دیگر می توانند مدل پایه را بسازند یا ارتقا دهند. ما این را در مدل های نمایشگر مانند Flux و Stable Diffusion دیده ایم. این منجر به طیف گستردهتری از قابلیتها نسبت به یک شرکت میشود که به تنهایی میتواند توسعه دهد.
ویدئوهای این مقاله همگی با استفاده از LTX Video ایجاد شدهاند و به همان سرعتی که انتظار دارید رندر میشوند. من هنوز اینها را بهصورت آفلاین امتحان نکردهام، اما اگر یک رایانه بازی به اندازه کافی خوب دارید، از طریق ComfyUI در دسترس هستند.
اگر کامپیوتر بازی ندارید، می توانید آن را از طریق HuggingFace و FAL.ai دریافت کنید.