Chatgpt ، Gemini و Claude نتوانستند یک آزمایش ساده را که همه مردم حرکت می کنند حل کنند

از آنجا که هوش مصنوعی همچنان به عنوان هوشمندانه ترین چیز در اتاق ، شهرت خود را بهبود می بخشد ، شنیدن یک آزمایش آزمایشی به طرز عجیبی درمانی خواهد بود.
در حقیقت ، این سیستم بررسی جدید هوش مصنوعی حتی برای پیشرفته ترین مدل ها باعث ایجاد مشکلات می شود.
“انتزاع و استدلال استدلال” برای استفاده از ARC-AG2 یا نام جذاب تر ، آزمایش جدیدی است که برای اندازه گیری استدلال یک مدل AI و حل مسئله عمومی ایجاد شده است.
این سازمان توسط یک سازمان غیرانتفاعی به نام ARC جایزه ایجاد شده است تا بتواند توسعه اطلاعات عمومی مصنوعی (AGI) را تسریع کند-چیزی که سام آلتمن ، بنیانگذار اولامی ، ادعا می کند که او می تواند در اسرع وقت امسال بیاید.
مدل R1 Deepseek تنها در تست جدید 1.3 ٪ به ثمر رسانده است و سایر مدل های مشابه مانند Gemini Google یا 3.7 غزل Claude تقریباً 1 ٪ دریافت کرده است. مدل GPT 4.5 ChatGPT نیز 0.8 ٪ به دست آورد.
پس آزمایش چه سخت است؟
آزمون چیست؟
این تست به خودی خود شامل مشکلات مانند پازل بود که مدل AI باید الگوهای بصری را از مجموعه قاب های رنگی تعریف کند. پس از تعریف الگوی ، مدل باید پاسخ صحیح را انتخاب کند.
این مانند یادگیری برخی از مشکلات ریاضیات مدرسه کلاس است. شما نمی توانید راه پاسخ را به خاطر بسپارید. درعوض ، وظایف به یک مدل نیاز دارند تا اطلاعات فعلی و درک مدل ها را برای مشکلات کاملاً جدید اعمال کند.
با این کار ، آزمون نه تنها به هوش به عنوان توانایی حل مشکلات یا کسب بالاترین امتیاز نگاه نمی کند. در عوض ، هوش مصنوعی در حال بررسی چگونگی سازگاری کارآمد ، یادگیری و حل مشکلات جدید است.
چنین آزمایشی برای مجبور کردن هوش مصنوعی برای حل مشکلاتی که قبلاً ندیده بود ، طراحی شده است و او مجبور است مهارت های جدیدی را به غیر از داده هایی که آموزش دیده اند ، بدست آورد.
چنین آزمایشی برای مجبور کردن هوش مصنوعی برای حل مشکلاتی که قبلاً ندیده بود ، طراحی شده است و او مجبور است مهارت های جدیدی را به غیر از داده هایی که آموزش دیده اند ، بدست آورد. بر خلاف برخی از تست های قبلی ، هدف در اینجا آسان برای تکمیل افراد است ، اما فراهم کردن چیز دشوار برای هوش مصنوعی.
از بیش از 400 نفر خواسته شد که در همان آزمون شرکت کنند. به طور متوسط ، این “پانل” به طور متوسط 60 ٪ به ثمر رساند و حتی از مدل های هوش مصنوعی که عملکرد خوبی داشتند نیز فراتر رفت.
تیم پشت آزمون معتقد است که ما باید AI را آزمایش کنیم. در حالی که مواردی مانند Chatgpt ، Gemini و Claude می توانند در کارهای مختلف نسبت به افراد بهتر عمل کنند ، اما هنوز هم مناطق بسیاری وجود دارد که افراد بهتر هستند.
همانطور که از نام آن پیداست ، این اولین نسخه از این آزمون نیست. در سال 2019 ، او یک کارمند Google ARC-AG1 ایجاد کرد. این چهار سال طول کشید تا هوش مصنوعی را شکست دهد و پیشرفت نهایی در استدلال این مدل ها را نشان داد.
اگرچه مدل ها می توانند چند سال دیگر برای حل این آزمایش جدید طول بکشد ، تیم پشت آن معتقد است که این یک اقدام مهم برای هدف قرار دادن آن است.
آنها بر این باورند که ما در صورت آسان بودن مردم به هوش کلی مصنوعی خواهیم رسید ، اما هیچ کاری وجود ندارد که برای هوش مصنوعی دشوار باشد – نسخه ای از هوش مصنوعی که در تمام اقدامات از قابلیت های انسانی فراتر می رود.