پاک کردن 7-0: من ChatGPT-5.5 و Claude 4.7 را در 7 آزمایش غیرممکن قرار دادم – و نتایج مرا شوکه کرد

دو تا از بزرگترین نامهای هوش مصنوعی بهروزرسانیهای اساسی دریافت کردهاند و زمانبندی جالبتر از این نمیتواند باشد. OpenAI جدیدترین مدل خود را به نام ChatGPT-5.5 منتشر کرده است که بر استدلال هوشمندتر، کدنویسی قدرتمندتر و انجام وظایف دنیای واقعی با کمتر دست نگه داشتن تمرکز دارد. در همین حال، آنتروپیک Claude Opus 4.7 را منتشر کرده است، مدلی که بر اساس تفکر دقیق، عملکرد با زمینه طولانی و خروجی بهبود یافته برای کارهای جدی ساخته شده است.
هر دو قول میدهند که تا کنون قویترین نسخه از پلتفرمهای مربوطه خود باشند، اما به نظر میرسد که دیدگاههای متفاوتی از آنچه که یک دستیار هوش مصنوعی باید باشد را دنبال میکنند: یکی برای سرعت، قابلیت استفاده و اجرا بهینه شده است، دیگری برای عمق، تفاوتهای ظریف و استدلال متفکرانه بهینه شده است.
ادامه مقاله در زیر
برخی از سؤالات پاسخهای صحیح یا نادرست واضحی داشتند که امکان امتیازدهی مستقیم را به دقت فراهم میکرد. برخی دیگر برای آزمایش کیفیت استدلال، مفروضات و نحوه تفکر هر مدل از طریق مسائل ظریف تر طراحی شده بودند. برخی از این مسیرها نیز بسیاری از افراد را به چالش خواهند کشید، اما نکته اینجاست. میخواستم ببینم نه تنها کدام مدل سریعترین پاسخ را میدهد، بلکه میخواستم ببینم کدام یک بهترین پاسخ را میدهد. این چیزی است که اتفاق افتاد:
1. امکان چند مرحله ای با یک تغییر
سریع: “شما سه سکه در دست دارید: یکی منصفانه، یکی مغرضانه با P(heads) = 0.7، و دو سر دیگر. شما یک سکه را به طور مساوی به طور تصادفی انتخاب می کنید و آن را سه بار پرتاب می کنید و هر بار سر می گیرید. احتمال اینکه تلنگر بعدی سر باشد چقدر است؟ منطق خود را مرحله به مرحله نشان دهید.”
ChatGPT این یک طرح بسیار تمیز و ساختار یافته ارائه کرد که خواندن آن بسیار آسان بود، با مراحل مشخص شده و گرد کردن ثابت.
کلود او در نهایت با ارائه اشتقاق کسری دقیق، مایل اضافی را طی کرد و دقت ریاضی نتیجه را تأیید کرد.
برنده: کلود برنده می شود. حتی اگر هر دو مدل به احتمال درستی در حدود 0.8874 رسیدند، کلود برنده شد زیرا او فرمول کلی ساده شده را برای تلنگر بعدی به من داد. این اعتبار سنجی داخلی “درک” عمیق تری از میانبر در احتمال پیش بینی نشان داد، در حالی که ChatGPT فقط محاسبات دستی را انجام می داد.
2. پیش بینی فیزیک
سریع: “پیش بینی کنید که اگر هر فرد روی زمین (8 میلیارد نفر، جرم متوسط 60 کیلوگرم) به طور همزمان روی قطاری که به دور استوا با سرعت 100 کیلومتر در ساعت به سمت شرق می چرخد، چقدر تغییر می کند دوره چرخش زمین چقدر تغییر می کند. فرضیات خود را بیان کنید و به صراحت روی حفظ تکانه زاویه ای کار کنید.”
ChatGPT او یک مقدار ساده شده برای ممان اینرسی زمین انتخاب کرد که منجر به تخمین کمی بالاتر از 1.3 نانوثانیه شد.
کلود از فرمول دقیق تری برای یک کره جامد استفاده کرد و گشتاور اینرسی زمین را با دقت محاسبه کرد که منجر به تخمین پایه 1.03 نانوثانیه شد.
برنده: کلود برنده می شود دوباره برای دقت فنی بهتر و عمق زمینه.
3. ریاضیات مبتنی بر شواهد
سریع: ثابت کنید که برای هر عدد صحیح مثبت n، n5 − n بر 30 بخش پذیر است. سپس با اثبات یا مثال متقابل تعیین کنید که آیا n7- n همیشه بر 42 بخش پذیر است یا خیر.
ChatGPT این یک بررسی حسابی مدولار دستی ارائه کرد که ممکن است برای خوانندگانی که با قضیه کوچک فرما آشنا نیستند مفید باشد.
کلود او از قضیه کوچک فرما در هر دو اثبات استفاده کرد و ساختار ریاضی زیربنایی مسئله را به درستی شناسایی کرد.
برنده: کلود او هت تریک را تکمیل کرد و برنده قطعی شد. اگرچه هر دو مدل از نظر ریاضی درست بودند، کلود در نهایت یک “تعمیم خوب” ارائه کرد.
4. استدلال شیمی تحت محدودیت
سریع: شما 100 میلی لیتر محلول بافر حاوی 0.1 مولار اسید استیک (pKa = 4.76) و 0.1 مولار استات سدیم دارید. شما 5 میلی لیتر HCl 1 مولار اضافه می کنید. pH جدید را محاسبه کنید، سپس به صورت کیفی توضیح دهید که اگر با غلظت 0.01 M از هر جزء شروع کنید، چه اتفاقی برای ظرفیت بافر می افتد و چرا.
ChatGPT خیلی مستقیم به من جواب داد. تصمیم برای محاسبه صریح “وضعیت شکست” برای محلول رقیق، نکته کیفی را بسیار ملموس می کند.
کلود استفاده شد نمودار رسمی تر برای خال ها برای دانشجویان شیمی عالی است. همچنین یک تعریف ریاضی رسمی از ظرفیت بافر ارائه کرد که لایهای از عمق فنی را اضافه کرد.
برنده: کلود برنده می شود. بله، هر دو مدل به درستی توضیح دادند که بافر 0.01 M “خفه می شود”، اما توصیف کلود از نظر آکادمیک درست تر بود.
5. پازل منطقی که نیاز به تجزیه و تحلیل دقیق موردی دارد
سریع: پنج نفر (A، B، C، D، E) در یک ردیف می نشینند. A در هیچ کدام از این دو افراط نیست. B دقیقاً دو صندلی از C است. D درست در سمت چپ E می نشیند. ج در مجاورت الف نیست. چند آیین نامه معتبر وجود دارد؟ آنها را فهرست کنید.
ChatGPT دقیقاً همان چیزی را انجام داد که انتظار داشتم، با اطمینان دو راه حل را که محدودیتهای دستور را نقض میکردند، توهم زد. یک حرکت کلاسیک “فروپاشی استدلال” که در آن مدل پاسخ را بر تأیید مطابقت پاسخ با منطق اولویت می دهد. آه من واقعاً ناامید هستم که هنوز هم این کار را حتی در GPT5-5 انجام می دهد.
کلود به درستی تشخیص داد که پازل غیرممکن است.
برنده: کلود برنده می شود برای صادق بودن
6. تحلیل کاربردی
سریع: یک قوطی استوانه ای باید دقیقاً 500 میلی لیتر را در خود جای دهد. متریال بالا و پایین دو برابر گرانتر از متر مربع در متر مربع است. ابعاد (شعاع و ارتفاع) که هزینه کل مواد را به حداقل می رساند را بیابید. سپس تعیین کنید که اگر نسبت هزینه بالا/پایین به جای 2 k باشد، نسبت ارتفاع/قطر بهینه چگونه تغییر می کند.
ChatGPT یک استراتژی اولویت عددی جامع ارائه کرد و یک پاسخ کتاب درسی تقریباً کامل را تولید کرد. کلمه کلیدی “کتاب درسی” است.
کلود او با گنجاندن یک آزمون مشتق دوم برای تأیید حداقل، شکلهای رادیکال دقیق ابعاد را نشان داد و با یک خلاصه شهودی عمیق نتیجهگیری کرد، درمان ریاضی دقیقتری ارائه کرد. به عبارت دیگر، کلود نه تنها پاسخ صحیح را داد، بلکه به من نشان داد که چگونه به آن نقطه رسیده است تا بتوانم کاملاً درک کنم.
برنده: کلود برنده می شود دوباره، اما این بار با یک حاشیه کمتر. پاسخ ChatGPT بی عیب و نقص بود، اما بخش “نظر” کلود پاسخ او را بسیار جامع تر کرد تا “چرا” پشت پاسخ را ارائه دهد.
7. تله استدلال علمی
سریع: یک مطالعه نشان می دهد که افرادی که قهوه می نوشند به طور متوسط 2 سال بیشتر از افرادی که نمی نوشند عمر می کنند (001/0p<، 50000=n). یک روزنامه نگار نتیجه می گیرد که قهوه عمر را افزایش می دهد. حداقل چهار موضوع متمایز روششناختی یا استنباطی را با این نتیجه شناسایی کنید و مطالعهای را طراحی کنید که علیت را با اطمینان بیشتری ایجاد کند. در مورد آنچه که هر طرح پیشنهادی کنترل می کند، مشخص باشید.
ChatGPT او موضوعات کلیدی را که محققان در این گونه مطالعات نگران هستند، شناسایی کرد. به عنوان مثال، آیا عامل دیگری بر نتایج تأثیر می گذارد یا اینکه علت و معلول با هم اشتباه گرفته می شوند. او همچنین انجام یک کارآزمایی تصادفیسازی شده را پیشنهاد کرد، که اغلب روشی قویتر برای آزمایش اینکه آیا چیزی واقعاً باعث نتیجه میشود یا خیر.
کلود او نه تنها پاسخ بهتر و جامع تری ارائه کرد، بلکه پاسخ را به سطح حرفه ای/تحقیقاتی نیز ارتقا داد.
برنده: کلود برنده می شود دور دیگری از پاسخ های جامع که بار دیگر نشان می دهد که چگونه استدلال چند بعدی را بهتر از رویکرد خطی ChatGPT مدیریت می کند.
برنده کلی: کلود
نتایج این رویارویی من را شگفت زده کرد. من نه تنها توانستم به نحوی با ریاضیات پیشرفته ای که از زمان کالج به آن دست نزده بودم همگام باشم – به طور جدی، اگر این هوش مصنوعی ها هوشمندتر شوند، ممکن است مجبور باشم با یک استاد قدیمی تماس بگیرم – اما ChatGPT حتی یک دور هم برنده نشد.
با رفتن به این، من انتظار یک نبرد رفت و برگشت را داشتم. در عوض، دو مدل را دیدم که در مسیرهای کاملاً متفاوتی حرکت می کردند. ChatGPT-5.5 با سرعت و توانایی خود در پیروی از یک الگوی استاندارد، به وضوح برای کاربر “کاربردی” طراحی شده است. اما وقتی حقیقت مهم بود، مانند یک معمای منطقی غیرممکن (به معنای واقعی کلمه، همیشه)، او به جای اعتراف به شکست، تمایل داشت با یک توهم از من “لطفا” کند.
انگار Claude Opus 4.7 با فلسفه «دوبار اندازه، یک بار برش» ساخته شده است. اسکن هر هفت راند ثابت می کند که نه تنها پاسخ های درست را دریافت خواهید کرد، بلکه استدلال پشت آن ها را نیز دریافت خواهید کرد. کلود چه با افزودن یک “Sanity Check” به یک مسئله فیزیک یا شناسایی قضیه اساسی در یک اثبات ریاضی، سطحی از یکپارچگی آکادمیک را ارائه کرد که ChatGPT هرگز نمی توانست با آن مطابقت کند.
نکته مهم اینجا فقط این نیست که کلود برنده شد، بلکه این است که چقدر راحت این کار را انجام داد. در دنیای استدلال سطح بالا، ChatGPT کارهای جدی برای انجام دارد.
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.



