مدلهای ویدیویی هوش مصنوعی سعی میکنند از فیزیک دنیای واقعی تقلید کنند، اما آن را دریافت نمیکنند
دانشمندان دریافتهاند که سازندگان ویدیوهای هوش مصنوعی نمیتوانند قوانین فیزیک را فقط با تماشای ویدیو درک کنند.
سازندگان ویدیوی هوش مصنوعی مانند Sora و Runway که با وجود رباتهای چت و تولیدکنندههای ویدیو، در حال ارائه نتایج چشمگیر هستند. اما تیمی از دانشمندان از Bytedance Research، دانشگاه Tsinghua و Technion میخواستند دریابند که آیا چنین مدلهایی میتوانند قوانین فیزیکی را از دادههای بصری بدون هیچ ورودی اضافی انسانی کشف کنند یا خیر.
در دنیای واقعی، ما فیزیک را از طریق ریاضیات درک می کنیم. در دنیای ایجاد ویدیو، یک مدل هوش مصنوعی که فیزیک را میفهمد، باید بتواند یک سری فریم را تماشا کند و پیشبینی کند که کدام فریم بعدی خواهد بود. این باید هم زمانی اتفاق بیفتد که تصاویر، تصاویری هستند که مدل هوش مصنوعی قبلاً دیده است و هم زمانی که تصاویر ناآشنا هستند.
برای اینکه بفهمند آیا این درک وجود دارد یا خیر، دانشمندان با استفاده از اشکال و حرکات ساده یک شبیهسازی دوبعدی ایجاد کردند و صدها هزار ویدیو کوچک برای آموزش و آزمایش مدلهای خود ایجاد کردند. آنها دریافتند که این مدل ها می توانند فیزیک را «تقلید» کنند اما نمی توانند آن را درک کنند.
تماشا کنید
سه قانون اساسی فیزیکی که آنها برای شبیه سازی انتخاب کردند، حرکت خطی یکنواخت یک توپ، برخورد کاملاً الاستیک بین دو توپ و حرکت سهموی یک توپ بود.
بر اساس مقاله پیشچاپ تیم، مشخص شد که در حالی که شکلها برای شبیهسازیها بر اساس دادههایی که روی آنها آموزش دیده بودند، همانطور که باید حرکت میکردند، در سناریوهای جدید و غیرقابل پیشبینی به درستی حرکت نمیکردند. در بهترین حالت، مدلها سعی کردند نزدیکترین نمونه آموزشی را که میتوانند پیدا کنند، تقلید کنند.
در طول آزمایشهای خود، دانشمندان همچنین مشاهده کردند که سازنده ویدیو اغلب یک شکل را به شکل دیگری تغییر میدهد (مثلاً یک مربع به طور تصادفی به یک توپ تبدیل میشود) یا تنظیمات بیمعنی دیگری انجام میدهد. به نظر می رسد اولویت های مدل از سلسله مراتب واضحی پیروی می کنند. رنگ بیشترین اهمیت را داشت و سپس اندازه و سپس سرعت. شکل کمترین تاکید را داشت.
راه حلی پیدا کردند؟
محققان میگویند: «تعیین اینکه آیا یک مدل ویدیویی به جای به خاطر سپردن دادهها، قانون را یاد گرفته است یا نه، دشوار است. آنها توضیح دادند که از آنجایی که اطلاعات داخلی مدل غیرقابل دسترسی بود، آنها فقط میتوانستند با بررسی پیشبینیهای آن در سناریوهای دیده نشده، درک آن را بدست آورند.
آنها گفتند: «تحلیل عمیق ما نشان میدهد که تعمیم مدل ویدیویی بر ارجاع نمونههای آموزشی مشابه به جای یادگیری قوانین جهانی متکی است.
راه حلی پیدا کردند؟ هنوز نه، Bingyi Kang نویسنده سرمقاله در مورد X نوشت. او افزود: «در واقع، این احتمالاً مأموریت کل جامعه هوش مصنوعی است.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide