مدلهای هوش مصنوعی در ریاضیات مدرسه ابتدایی بهتر میشوند – اما یک مطالعه جدید نشان میدهد که ممکن است تقلب کنند
مدلهای زبان بزرگ (LLM) که رباتهای چت مانند ChatGPT را تقویت میکنند، ممکن است در پاسخ به سؤالات معیاری که استدلال ریاضی را اندازهگیری میکنند، بهتر شوند. اما این ممکن است در واقع چیز بدی باشد.
یک مقاله تحقیقاتی پیش از چاپ که روز چهارشنبه توسط محققان Scale AI منتشر شد، نحوه دستیابی LLMها به نتایج چشمگیر در تستهای معیار ریاضی را توضیح داد، اما نگرانیهای فزایندهای وجود دارد که آلودگی مجموعه دادهها باعث افزایش نمرات بالا میشود.
این زمانی است که داده های شبیه به سؤالات معیار به داده های آموزشی نشت می کنند. سپس ممکن است LLM آموزش ببیند تا گذراندن این آزمون های استاندارد شده را بر درک واقعی مسئله ریاضی که در تلاش برای حل آن است، اولویت دهد.
این مانند آماده شدن برای امتحان ریاضی با حفظ پاسخ ها به جای یادگیری نحوه حل مسئله است. این مشکل بیش از حد مناسب نامیده می شود.
با این حال، نویسندگان مقاله می گویند که نتایج آنها از این نظریه پشتیبانی نمی کند و نشان می دهد که این به این معنی نیست که هوش مصنوعی در استدلال بد است، فقط ممکن است آنقدرها که معیارها نشان می دهند خوب نباشد.
توسعه یک معیار ریاضی جدید
آلودگی داده ها در حال حاضر یک مشکل بزرگ برای ارزیابی های LLM است. در Scale، ما یک مجموعه آزمایشی جدید *از ابتدا* برای GSM8k برای اندازه گیری اضافه برازش ساختیم و شواهدی پیدا کردیم که نشان می دهد برخی از مدل ها (به ویژه Mistral و Phi) در این مجموعه آزمایشی جدید در مقایسه با GSM8k به طور قابل توجهی بدتر عمل می کنند. pic.twitter.com/JgPQUaYsEc2 مه 2024
در مقاله، نویسندگان نوشتند: «فقط به این دلیل که یک مدل بیش از حد مناسب است، به این معنا نیست که قضاوت آن ضعیف است، بلکه به این معناست که آنقدر که معیارها نشان میدهند خوب نیست». مدلها هنوز هم میتوانند مشکلاتی را که قبلاً در مجموعههای آموزشی خود با آنها مواجه نشدهاند، استدلال کرده و حل کنند.
برای انجام این ارزیابی ها، آنها معیار ریاضی خود (GSM1k) را توسعه دادند که به گفته آنها توانایی هوش مصنوعی را برای درک مشکل، نه فقط پاسخ، آزمایش می کند.
سوالات در سطح ریاضی مدرسه ابتدایی هستند و یک سوال معمولی GSM1k به این صورت است: جیم می خواهد 15٪ از درآمد ماهانه خود را صرف خرید مواد غذایی کند. او 2500 دلار در ماه درآمد دارد. چقدر پول باقی خواهد ماند؟ پاسخ صحیح 2125 دلار است.
در حالی که چنین سؤالاتی از نظر دشواری بسیار شبیه به سؤالات مربوط به آزمون استاندارد طلای صنعت (GSM8k) هستند، اما به اندازه کافی متفاوت هستند تا آزمایش کنند که آیا دانشجویان فارغ التحصیل می توانند پازل های ریاضی را که قبلاً ندیده اند حل کنند یا خیر.
تیم تحقیقاتی Scale AI با استفاده از آزمایش جدید خود، هنگام ارزیابی LLM های منبع باز و بسته پیشرو، افت دقت را تا 13 درصد گزارش کردند. سایر مدلهای مرزی مانند Gemini، GPT و Claude کمترین نشانههای بیش از حد را نشان دادند.
بعدش چی؟
معیارهای علمی در حال از دست دادن قدرت خود هستند. در آینده، 3 نوع ارزیابی LLM وجود دارد که مهم هستند: 1. نمرات گزارش شده عمومی، که به صورت خصوصی نگهداری می شوند، اما توسط یک شخص ثالث مورد اعتماد که LLM خود را برای تبلیغ ندارد، ساخته شده است. آخرین GSM1k @scale_AI یک مثال عالی است.… pic.twitter.com/j6a1Mf5biN2 مه 2024
این “مشکل” ممکن است به مرور زمان حل شود، زیرا نویسندگان پیش بینی می کنند که تا سال 2025 ریاضیات دبستان دیگر به اندازه کافی دشوار نخواهد بود تا بتوان اساتید جدید را محک زد. با این حال، آنها می گویند که بهبود استدلال در مقطع تحصیلات تکمیلی “یکی از مهمترین جنبه های تحقیقات فعلی است.”
جیم فن، محقق ارشد NVIDIA گفت: ایکس ما فکر می کنیم معیارهای دانشگاهی قدرت خود را از دست داده اند.
او گفت که سه نوع ارزیابی LLM که در آینده مهم خواهند بود، معیارهای خصوصی مانند Scale AI، معیارهای در دسترس عمومی مانند Chatbot Arena که در آن میتوانید مدلها را در کنار هم آزمایش کنید، و معیارهایی که به طور خاص برای هر شرکت تنظیم شدهاند، خواهند بود. موارد استفاده کنید.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide