مدل‌های ویدیویی هوش مصنوعی سعی می‌کنند از فیزیک دنیای واقعی تقلید کنند، اما آن را دریافت نمی‌کنند

پروین میرمیران8 نوامبر 2024آخرین به روز رسانی: 8 نوامبر 2024

0 2,670 خواندن این مطلب 2 دقیقه زمان میبرد

مدل‌های ویدیویی هوش مصنوعی سعی می‌کنند از فیزیک دنیای واقعی تقلید کنند، اما آن را دریافت نمی‌کنند

دانشمندان دریافته‌اند که سازندگان ویدیوهای هوش مصنوعی نمی‌توانند قوانین فیزیک را فقط با تماشای ویدیو درک کنند.

سازندگان ویدیوی هوش مصنوعی مانند Sora و Runway که با وجود ربات‌های چت و تولیدکننده‌های ویدیو، در حال ارائه نتایج چشمگیر هستند. اما تیمی از دانشمندان از Bytedance Research، دانشگاه Tsinghua و Technion می‌خواستند دریابند که آیا چنین مدل‌هایی می‌توانند قوانین فیزیکی را از داده‌های بصری بدون هیچ ورودی اضافی انسانی کشف کنند یا خیر.

در دنیای واقعی، ما فیزیک را از طریق ریاضیات درک می کنیم. در دنیای ایجاد ویدیو، یک مدل هوش مصنوعی که فیزیک را می‌فهمد، باید بتواند یک سری فریم را تماشا کند و پیش‌بینی کند که کدام فریم بعدی خواهد بود. این باید هم زمانی اتفاق بیفتد که تصاویر، تصاویری هستند که مدل هوش مصنوعی قبلاً دیده است و هم زمانی که تصاویر ناآشنا هستند.

برای اینکه بفهمند آیا این درک وجود دارد یا خیر، دانشمندان با استفاده از اشکال و حرکات ساده یک شبیه‌سازی دوبعدی ایجاد کردند و صدها هزار ویدیو کوچک برای آموزش و آزمایش مدل‌های خود ایجاد کردند. آنها دریافتند که این مدل ها می توانند فیزیک را «تقلید» کنند اما نمی توانند آن را درک کنند.

آیا واقعا SORA یک مدل جهانی است؟ -یوتیوب

تماشا کنید

سه قانون اساسی فیزیکی که آنها برای شبیه سازی انتخاب کردند، حرکت خطی یکنواخت یک توپ، برخورد کاملاً الاستیک بین دو توپ و حرکت سهموی یک توپ بود.

بر اساس مقاله پیش‌چاپ تیم، مشخص شد که در حالی که شکل‌ها برای شبیه‌سازی‌ها بر اساس داده‌هایی که روی آن‌ها آموزش دیده بودند، همانطور که باید حرکت می‌کردند، در سناریوهای جدید و غیرقابل پیش‌بینی به درستی حرکت نمی‌کردند. در بهترین حالت، مدل‌ها سعی کردند نزدیک‌ترین نمونه آموزشی را که می‌توانند پیدا کنند، تقلید کنند.

در طول آزمایش‌های خود، دانشمندان همچنین مشاهده کردند که سازنده ویدیو اغلب یک شکل را به شکل دیگری تغییر می‌دهد (مثلاً یک مربع به طور تصادفی به یک توپ تبدیل می‌شود) یا تنظیمات بی‌معنی دیگری انجام می‌دهد. به نظر می رسد اولویت های مدل از سلسله مراتب واضحی پیروی می کنند. رنگ بیشترین اهمیت را داشت و سپس اندازه و سپس سرعت. شکل کمترین تاکید را داشت.

راه حلی پیدا کردند؟

محققان می‌گویند: «تعیین اینکه آیا یک مدل ویدیویی به جای به خاطر سپردن داده‌ها، قانون را یاد گرفته است یا نه، دشوار است. آنها توضیح دادند که از آنجایی که اطلاعات داخلی مدل غیرقابل دسترسی بود، آنها فقط می‌توانستند با بررسی پیش‌بینی‌های آن در سناریوهای دیده نشده، درک آن را بدست آورند.

آنها گفتند: «تحلیل عمیق ما نشان می‌دهد که تعمیم مدل ویدیویی بر ارجاع نمونه‌های آموزشی مشابه به جای یادگیری قوانین جهانی متکی است.

راه حلی پیدا کردند؟ هنوز نه، Bingyi Kang نویسنده سرمقاله در مورد X نوشت. او افزود: «در واقع، این احتمالاً مأموریت کل جامعه هوش مصنوعی است.