استارت‌آپ کوچک هوش مصنوعی در آزمون استدلالی حیاتی، جمینی 3 گوگل را شکست – این چیزی است که ما می‌دانیم

پروین میرمیراندسامبر 8, 2025آخرین به روز رسانی: دسامبر 8, 2025

2,671 خواندن این مطلب 3 دقیقه زمان میبرد

استارت‌آپ کوچک هوش مصنوعی در آزمون استدلالی حیاتی، جمینی 3 گوگل را شکست – این چیزی است که ما می‌دانیم

Gemini 3 از زمان اولین حضور خود توانسته در صدر جدول امتیازات LMARena قرار گیرد. این تابلوی امتیازات یک رتبه‌بندی جمع‌سپاری است که در آن هزاران کاربر واقعی مدل‌های هوش مصنوعی را در طیف گسترده‌ای از وظایف به‌هم مقایسه می‌کنند و در مورد اینکه کدام پاسخ بهتر است رأی می‌دهند. اما وقتی نوبت به دستیابی به سخت ترین معیارهای استدلال می رسد، یک بچه جدید در بلوک وجود دارد و قبلاً گوگل را شکست داده است، و بدون آموزش مدل خود این کار را انجام داد.

یک استارتاپ تیم شش نفره معروف به Poetiq می‌گوید که در مجموعه تست نیمه خصوصی ARC-AGI-2، یک چالش استدلالی بسیار دشوار که توسط محقق هوش مصنوعی فرانسوا شولت ایجاد شده است، مقام اول را به خود اختصاص داده است. سیستم این استارت آپ 54 درصد را به دست آورد که از 45 درصدی که قبلاً توسط گوگل برای Gemini 3 Deep Think گزارش شده بود، شکست.

برای در نظر گرفتن این موضوع، بیشتر مدل‌های هوش مصنوعی تنها شش ماه پیش در این معیار کمتر از 5 درصد بودند. شکست 50 درصدی چیزی است که محققان سال‌ها پیش به طور گسترده آن را فرض کردند.

و شگفت‌انگیزترین بخش: پیشرفت Poetiq نه توسط یک مدل سرنخ جدید، بلکه با روشی هوشمندانه‌تر برای سازماندهی مدل‌های موجود انجام شد.

Poetiq چگونه به این امر دست یافت؟

(اعتبار تصویر: Poetiq)

به جای ساختن یک ترانسفورماتور غول پیکر از ابتدا، Poetiq چیزی را توسعه داد که آن را متا سیستم می نامد. این در اصل یک کنترل‌کننده هوش مصنوعی است که خروجی‌های هر مدلی را که به آن وصل می‌کنید، نظارت، نقد و بهبود می‌بخشد. این تیم از Gemini 3 Pro به عنوان مدل پایه برای تلاش ARC-AGI-2 خود استفاده کردند.

Poetiq سیستم را به عنوان یک چرخه بهینه سازی فشرده توصیف می کند: ایجاد > نقد > پالایش > اعتبار سنجی.

در اینجا چیزی است که آن را متمایز می کند:

بدون نیاز به آموزش مجدد: این سیستم ظرف چند ساعت با مدل های جدید سازگار می شود
این به طور کامل بر روی LLM های آماده برای استفاده ساخته شده است: بدون ترفند خاصی
هزینه کمتر: Deep Think گوگل برای هر کار حدود 77 دلار هزینه دارد. سیستم Poetiq به 30 دلار نزدیک می شود
منبع باز: حل کننده عمومی و قابل ممیزی است
خود نظارتی: سیستم قبل از بازگرداندن نتیجه نهایی، پاسخ های خود را ارزیابی می کند

در وب‌سایت این شرکت، تیم Poetiq می‌گوید که این رویکرد نه با مقیاس‌بندی محاسبات brute-force، بلکه با استخراج قدرت استدلال بیشتر از LLM‌های موجود کار می‌کند.

چرا ARC-AGI-2 مهم است؟

تصویر مفهومی هوش مصنوعی

(اعتبار تصویر: Shutterstock)

در حالی که بیشتر معیارها مهارت‌های محدودی مانند کدنویسی یا ریاضی را اندازه‌گیری می‌کنند، ARC-AGI-2 برای آزمایش چیزی عمیق‌تر طراحی شده است: تشخیص الگو، قیاس، استدلال انتزاعی، و انواع تعمیم‌هایی که افراد در اوایل کودکی یاد می‌گیرند.

مشخص است که عمدا برای دانشجویان فارغ التحصیل امروزی سخت و غیر دوستانه است. حتی بسیاری از مدل های پیشگام به طرز چشمگیری شکست می خورند.

به همین دلیل جهش از نقاط تک رقمی به 54 درصد در شش ماه توجهات را به خود جلب کرد. این پیشرفت نه تنها در مقیاس مدل خام بلکه در روش های استدلال نیز نشان می دهد.

اما نتیجه Poetiq به ویژه برای مجموعه تست نیمه خصوصی که به طور کامل در دسترس عموم نیست معتبر است. سایت شرکت می گوید که نتیجه توسط سازمان دهندگان معیار تایید شده است. اما نسخه مستقل شخص ثالث هنوز در انتظار است، که برای چنین معیار مؤثری مهم است.

شاید پیشرفت بعدی از مدل‌های بزرگ‌تر حاصل نشود، زیرا کار Poetiq روند رو به رشد هوش مصنوعی را برجسته می‌کند: پیشرفت همیشه به زیرساخت میلیارد دلاری یا یک آزمایشگاه تحقیقاتی عظیم نیاز ندارد.

اگر سیستم‌هایی مانند این فراتر از معیارها به برنامه‌ریزی، کدنویسی، تحقیق یا تصمیم‌گیری در دنیای واقعی تعمیم دهند، می‌توانند شیوه توسعه هوش مصنوعی را تغییر دهند. شرکت‌ها می‌توانند به جای انتظار برای مدل پیشرفت بعدی، هوشمندی لایه‌ای ایجاد کنند که مدل‌های امروزی را هوشمندتر، ارزان‌تر و سازگارتر می‌کند.

در نتیجه

Poetiq تجزیه کننده ARC-AGI را منبع باز کرده است تا محققان بتوانند نتایج را آزمایش، گسترش دهند یا پرس و جو کنند. این معیار دارای یک مجموعه تست محرمانه است و تاریخ نشان می دهد که نتایج می تواند با انجام ارزیابی های مستقل توسط افراد بیشتری تغییر کند.

اگر اعداد Poetiq معتبر باشند، این می تواند نقطه عطفی در تحقیقات استدلالی هوش مصنوعی باشد. یک تیم شش نفره ممکن است نشان داده باشد که مدیریت مدل‌ها می‌تواند با آموزش مدل‌های بزرگ‌تر رقابت کند یا حتی آن‌ها را شکست دهد. Poetiq ثابت می کند که برای برنده شدن در یک راند به یک آزمایشگاه غول پیکر نیاز ندارید.

اطلاعات بیشتر از راهنمای تام

دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.

اخبار گوگل

بازگشت به لپ تاپ

نمایش بیشتر

پروین میرمیراندسامبر 8, 2025آخرین به روز رسانی: دسامبر 8, 2025

2,671 خواندن این مطلب 3 دقیقه زمان میبرد

استارت‌آپ کوچک هوش مصنوعی در آزمون استدلالی حیاتی، جمینی 3 گوگل را شکست – این چیزی است که ما می‌دانیم

پروین میرمیران

3 میلیون SHIB به کیف پول مرده فرستاده شد، اما نرخ سوزاندن سوزاندن بدن پایین است – U.Today

ChatGPT به من گفت باردار هستم. کاملا اشتباه بود.

Dogecoin (DOGE) افزایش عظیم 123٪ در حجم تراکنش ها را اعلام کرد – U.Today

“قانون باز بودن سد را تصویب کنید”: مدیر ارشد فناوری Ripple ممتاز هویت جدید طنزآمیز به قانون رمزارز متوقف شده ایالات متحده می دهد – U.Today

36 ساعت اول من با سامسونگ گلکسی زد فولد 8: در مورد صفحه نمایش پاسپورت اشتباه کردم (اما قیمت 1899 دلاری همچنان من را آزار می دهد)

استخراج کریپتو در یکی دیگر از شهرهای ایالات متحده ممنوع شد – U.Today

نحوه تماشای فصل 4 “Star Trek: Strange New Worlds” – پیش درآمد “TOS” را به صورت آنلاین از هر کجا تماشا کنید

مشتریان BlackRock 202 میلیون دلار از بیت کوین ETF به سوخت اتریوم برداشتند – U.Today

3 فیلم برتر جدید نتفلیکس که باید این آخر هفته (24 تا 26 ژوئیه) تماشا کنید

من تمام فیلم‌ها و سریال‌های تلویزیونی جدید را برای تماشا در Netflix، Prime Video و موارد دیگر در آخر هفته (24 تا 26 ژوئیه) فهرست کرده‌ام.