استارتآپ کوچک هوش مصنوعی در آزمون استدلالی حیاتی، جمینی 3 گوگل را شکست – این چیزی است که ما میدانیم

Gemini 3 از زمان اولین حضور خود توانسته در صدر جدول امتیازات LMARena قرار گیرد. این تابلوی امتیازات یک رتبهبندی جمعسپاری است که در آن هزاران کاربر واقعی مدلهای هوش مصنوعی را در طیف گستردهای از وظایف بههم مقایسه میکنند و در مورد اینکه کدام پاسخ بهتر است رأی میدهند. اما وقتی نوبت به دستیابی به سخت ترین معیارهای استدلال می رسد، یک بچه جدید در بلوک وجود دارد و قبلاً گوگل را شکست داده است، و بدون آموزش مدل خود این کار را انجام داد.
یک استارتاپ تیم شش نفره معروف به Poetiq میگوید که در مجموعه تست نیمه خصوصی ARC-AGI-2، یک چالش استدلالی بسیار دشوار که توسط محقق هوش مصنوعی فرانسوا شولت ایجاد شده است، مقام اول را به خود اختصاص داده است. سیستم این استارت آپ 54 درصد را به دست آورد که از 45 درصدی که قبلاً توسط گوگل برای Gemini 3 Deep Think گزارش شده بود، شکست.
برای در نظر گرفتن این موضوع، بیشتر مدلهای هوش مصنوعی تنها شش ماه پیش در این معیار کمتر از 5 درصد بودند. شکست 50 درصدی چیزی است که محققان سالها پیش به طور گسترده آن را فرض کردند.
و شگفتانگیزترین بخش: پیشرفت Poetiq نه توسط یک مدل سرنخ جدید، بلکه با روشی هوشمندانهتر برای سازماندهی مدلهای موجود انجام شد.
Poetiq چگونه به این امر دست یافت؟
به جای ساختن یک ترانسفورماتور غول پیکر از ابتدا، Poetiq چیزی را توسعه داد که آن را متا سیستم می نامد. این در اصل یک کنترلکننده هوش مصنوعی است که خروجیهای هر مدلی را که به آن وصل میکنید، نظارت، نقد و بهبود میبخشد. این تیم از Gemini 3 Pro به عنوان مدل پایه برای تلاش ARC-AGI-2 خود استفاده کردند.
Poetiq سیستم را به عنوان یک چرخه بهینه سازی فشرده توصیف می کند: ایجاد > نقد > پالایش > اعتبار سنجی.
در اینجا چیزی است که آن را متمایز می کند:
- بدون نیاز به آموزش مجدد: این سیستم ظرف چند ساعت با مدل های جدید سازگار می شود
- این به طور کامل بر روی LLM های آماده برای استفاده ساخته شده است: بدون ترفند خاصی
- هزینه کمتر: Deep Think گوگل برای هر کار حدود 77 دلار هزینه دارد. سیستم Poetiq به 30 دلار نزدیک می شود
- منبع باز: حل کننده عمومی و قابل ممیزی است
- خود نظارتی: سیستم قبل از بازگرداندن نتیجه نهایی، پاسخ های خود را ارزیابی می کند
در وبسایت این شرکت، تیم Poetiq میگوید که این رویکرد نه با مقیاسبندی محاسبات brute-force، بلکه با استخراج قدرت استدلال بیشتر از LLMهای موجود کار میکند.
چرا ARC-AGI-2 مهم است؟
در حالی که بیشتر معیارها مهارتهای محدودی مانند کدنویسی یا ریاضی را اندازهگیری میکنند، ARC-AGI-2 برای آزمایش چیزی عمیقتر طراحی شده است: تشخیص الگو، قیاس، استدلال انتزاعی، و انواع تعمیمهایی که افراد در اوایل کودکی یاد میگیرند.
مشخص است که عمدا برای دانشجویان فارغ التحصیل امروزی سخت و غیر دوستانه است. حتی بسیاری از مدل های پیشگام به طرز چشمگیری شکست می خورند.
به همین دلیل جهش از نقاط تک رقمی به 54 درصد در شش ماه توجهات را به خود جلب کرد. این پیشرفت نه تنها در مقیاس مدل خام بلکه در روش های استدلال نیز نشان می دهد.
اما نتیجه Poetiq به ویژه برای مجموعه تست نیمه خصوصی که به طور کامل در دسترس عموم نیست معتبر است. سایت شرکت می گوید که نتیجه توسط سازمان دهندگان معیار تایید شده است. اما نسخه مستقل شخص ثالث هنوز در انتظار است، که برای چنین معیار مؤثری مهم است.
شاید پیشرفت بعدی از مدلهای بزرگتر حاصل نشود، زیرا کار Poetiq روند رو به رشد هوش مصنوعی را برجسته میکند: پیشرفت همیشه به زیرساخت میلیارد دلاری یا یک آزمایشگاه تحقیقاتی عظیم نیاز ندارد.
اگر سیستمهایی مانند این فراتر از معیارها به برنامهریزی، کدنویسی، تحقیق یا تصمیمگیری در دنیای واقعی تعمیم دهند، میتوانند شیوه توسعه هوش مصنوعی را تغییر دهند. شرکتها میتوانند به جای انتظار برای مدل پیشرفت بعدی، هوشمندی لایهای ایجاد کنند که مدلهای امروزی را هوشمندتر، ارزانتر و سازگارتر میکند.
در نتیجه
Poetiq تجزیه کننده ARC-AGI را منبع باز کرده است تا محققان بتوانند نتایج را آزمایش، گسترش دهند یا پرس و جو کنند. این معیار دارای یک مجموعه تست محرمانه است و تاریخ نشان می دهد که نتایج می تواند با انجام ارزیابی های مستقل توسط افراد بیشتری تغییر کند.
اگر اعداد Poetiq معتبر باشند، این می تواند نقطه عطفی در تحقیقات استدلالی هوش مصنوعی باشد. یک تیم شش نفره ممکن است نشان داده باشد که مدیریت مدلها میتواند با آموزش مدلهای بزرگتر رقابت کند یا حتی آنها را شکست دهد. Poetiq ثابت می کند که برای برنده شدن در یک راند به یک آزمایشگاه غول پیکر نیاز ندارید.
اطلاعات بیشتر از راهنمای تام
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.
بازگشت به لپ تاپ



