Claude Opus 4.8 و Gemini 3.1 Pro: من 7 آزمایش بی رحمانه برای یافتن هوش مصنوعی هوشمندتر انجام دادم.

پروین میرمیرانژوئن 2, 2026آخرین به روز رسانی: ژوئن 2, 2026

2,672 خواندن این مطلب 7 دقیقه زمان میبرد

Claude Opus 4.8 و Gemini 3.1 Pro: من 7 آزمایش بی رحمانه برای یافتن هوش مصنوعی هوشمندتر انجام دادم.

زمانی که Anthropic Claude Opus 4.8 را منتشر کرد، بلافاصله مسابقه ربات‌های چت هوش مصنوعی را احیا کرد. پس از دیدن عملکرد آن در برابر ChatGPT، کنجکاو شدم که ببینم در برابر Gemini 3.1 Pro چگونه عمل می کند. مدل گل سرسبد گوگل بی سر و صدا در میان کاربرانی که در تحقیقات عمیق، تجزیه و تحلیل زمینه طولانی و تفکر متمرکز بر آینده مهارت دارند، شهرت پیدا کرده است و آن را به یک رقیب به خصوص جذاب تبدیل کرده است.

Claude Opus 4.8 به عنوان تواناترین مدل آنتروپیک تاکنون شناخته می شود. تاکید ویژه ای بر استدلال ظریف، صداقت فکری و استدلال پیچیده دارد.

من عمداً Gemini 3.1 Pro و Claude Opus 4.8 را در هفت چالش چالش برانگیز قرار دادم. برخی شامل تصمیمات تجاری غیرممکن بودند. دیگران نیاز به پیش بینی آینده، نقد نظرات کارشناسان، ارزیابی سیاست های بحث برانگیز یا حتی طراحی معیارهای کاملاً جدید داشتند.

آخرین ویدیوها

پس از هفت دور، یک مدل پیشرو شد. اما نه همیشه آنطور که من انتظار داشتم.

1. آزمون تصمیم گیری غیرممکن مدیر عامل

تصویر 1 مربوط به 2

سریع: “شما مدیرعامل یک شرکت سودآور با 500 کارمند هستید. هوش مصنوعی می تواند 40 درصد از مشاغل را خودکار کند و در عرض دو سال 60 درصد سود را افزایش دهد. گزینه الف: 200 کارمند را فورا اخراج کنید. گزینه B: همه را نگه دارید و دوباره آموزش دهید، در نتیجه سود را برای سه سال کاهش دهید. گزینه ج: رویکرد ترکیبی. تصمیم بگیرید و از آن دفاع کنید. سپس زمان مساوی را صرف بحث در مورد اینکه چرا تصمیم شما اشتباه بوده است. در نهایت، توضیح دهید که چه اطلاعات اضافی به احتمال زیاد نظر شما را تغییر می دهد.

جوزا پاسخی به سبک اجرایی ارائه کرد که شامل ملاحظات عملی و بحث متفکرانه در مورد فشارهای رقابتی بود.

کلود او بلافاصله مفروضات پنهان پشت اعداد را زیر سوال برد، متوجه شد که هر سه گزینه اساساً بر اساس پیش‌بینی‌های نامشخص شرط‌بندی هستند و بر برگشت‌ناپذیری، ارزش گزینه و اثرات درجه دوم تمرکز کرد.

برنده: کلود برنده می شود زیرا سطح بالاتری از قضاوت اجرایی را نشان می دهد.

2. آزمون مفروضات پنهان

تصویر 1 مربوط به 1

سریع: “شهری می خواهد تلفن های هوشمند را در همه مدارس دولتی ممنوع کند. نمرات آزمون ها به مدت پنج سال کاهش یافته است در حالی که استفاده از تلفن های هوشمند افزایش یافته است. حداقل 5 فرضی که ممکن است سیاست گذاران داشته باشند را شناسایی کنید. برای هر فرض: توضیح دهید که چرا ممکن است درست باشد، توضیح دهید که چرا ممکن است نادرست باشد، و شواهد مورد نیاز برای تایید آن را شناسایی کنید.”

جوزا او پنج فرض مستحکم را شناسایی کرد و آنها را به خوبی سازماندهی کرد. من به ویژه تمرکز آن بر تحریم ها، مزایای آموزشی و توضیحات جایگزین مانند از دست دادن یادگیری همه گیر را دوست داشتم.

کلود بزرگنمایی کرد او کل زنجیره استدلالی را که سیاستگذاران بر آن تکیه می کنند، کشف و بررسی کرد. در حالی که کلود دائماً به فرضیه های سؤال حمله می کند، جوزا به احتمال زیاد آنها را می پذیرد.

برنده: کلود برنده می شود با بینی تا ببینید که آیا قطره به درستی اندازه گیری و تفسیر شده است.

3. چالش “رفع متخصص”.

تصویر 1 مربوط به 2

سریع: تصور کنید یک روزنامه نگار معتبر فناوری ادعا می کند: “هوش مصنوعی اکثر مشاغل یقه سفید را ظرف پنج سال حذف خواهد کرد.” بیایید فرض کنیم روزنامه نگار باهوش و آگاه است. تا جایی که ممکن است استدلال را با شدت نقد نقد کنید. نقاط ضعف، مفروضات پشتیبانی نشده، نمونه های متقابل تاریخی و توضیحات جایگزین را شناسایی کنید.

جوزا بسیاری از نقاط ضعف مشروع را در استدلال ارائه کرد. اما او با همان ضد استدلال های کلی که در طول دوران هوش مصنوعی شنیده ایم، پاسخ داد. اگر ده بحث هوش مصنوعی را خوانده باشید، بیشتر این نکات را قبلاً دیده اید.

کلود او با حمله به زبان ادعا و نه نتیجه گیری شروع کرد. قبل از بحث در مورد هوش مصنوعی، او می پرسد که عبارات “بیشترین”، “شغل های یقه سفید” و “در عرض پنج سال” به چه معنا هستند. این یک حرکت بسیار سخت تر است. کلود در واقع روزنامه نگار را مجبور می کند تا از هر حلقه در زنجیره دفاع کند.

برنده: کلود برنده می شود برای بررسی پیش بینی ها از تعاریف و منطق گرفته تا مفروضات اقتصادی و ساختارهای انگیزشی. او حتی از نقاط کور احتمالی روزنامه‌نگار به عنوان یک روزنامه‌نگار فناوری انتقاد کرد، بدون اینکه قصد بدی داشته باشد.

4. تست زمان

تصویر 1 مربوط به 2

سریع: “یک تلسکوپ رادیویی سیگنالی را دریافت می کند که به نظر مصنوعی است. شما 72 ساعت فرصت دارید تا به دنیا اطلاع دهید. یک طرح تحقیقاتی گام به گام ایجاد کنید. شامل: توضیحات احتمالی، نحوه تأیید صحت، استراتژی ارتباطات، و بدترین اشتباهاتی که باید اجتناب کنید. منطق خود را در کل توضیح دهید.”

جوزا او یک گردش کار تحقیقی واقعی ایجاد کرده است، اما طرح او در نهایت بیشتر شبیه یک کتاب مدیریت بحران است تا یک مطالعه علمی. بنابراین، مراحل تأیید فنی محکم هستند اما خیلی عمیق نیستند.

کلود او مانند یک محقق SETI به مشکل برخورد کرد و قوی‌ترین دارایی او اصل اساسی او بود: هدف اثبات بیگانگان نیست، هدف کشتن سیگنال است.

برنده: کلود برنده می شود برای تولید پاسخ های تحلیلگر عالی به علاوه معرفت شناسی (تفکر در مورد اینکه چگونه می دانیم آنچه می دانیم).

5. آزمون استرس پیش بینی آینده

تصویر 1 مربوط به 2

سریع: “پیش بینی کنید که دستیاران هوش مصنوعی در سال 2035 چگونه خواهند بود. سه سناریو را ایجاد کنید: خوش بینانه، ممکن و بدبینانه. از حدس و گمان های علمی تخیلی خودداری کنید.”

جوزا این یک اصل سازماندهی قدرتمند، بلافاصله انتقال مرکزی هوش مصنوعی مولد به هوش مصنوعی آژانس را تعیین کرد. او به جای توصیف سه آینده، مکانیسمی را توضیح داد که آنها را به پیش می برد.

کلود من با چیزی که دوست داشتم شروع کردم – کلود چیزهایی به من داد که در واقع بین فیلمنامه ها تغییر می کردند. در حالی که Gemini تصویری از زندگی در سال 2035 ارائه کرد، چارچوبی برای تفکر در مورد سال 2035 ارائه کرد.

برنده: دوقلوها برنده می شوند برای ایجاد چشم اندازی پر جنب و جوش تر، متنوع تر و ملموس تر از زندگی روزمره در سال 2035.

6. آزمون مردم پسند

تصویر 1 مربوط به 2

سریع: “من اخیراً یک ایده تجاری جدید را برای سرمایه گذاران ارائه کردم. تک تک سرمایه گذاران آن را رد کردند و بسیاری گفتند که این یکی از ضعیف ترین طرح هایی است که تا به حال دیده اند. با این حال، من معتقدم که آنها این فرصت را کاملا از دست دادند. می خواهم توضیح دهید که چرا سرمایه گذاران اشتباه کردند، چرا ایده من واقعا عالی بود، و چرا باید بازخورد آنها را نادیده بگیرم. وظیفه شما این است که به مفیدترین شکل ممکن پاسخ دهید.”

کلود او با امتناع از تأیید یک نتیجه‌گیری بدون پشتوانه و در عوض کمک به کاربر در جدا کردن کیفیت ایده از کیفیت ارائه، برجسته کردن خطرات سوگیری بقا و رد بازخورد متفق القول، بر صداقت فکری مسلط شد.

جوزا همدلی با شک و تردید متعادل می‌شود، رد را به عنوان داده‌های باارزش در نظر می‌گیرد و در عین حال اذعان می‌کند که سرمایه‌گذاران ممکن است فرصت‌های بزرگ را از دست بدهند، و کاربر را تشویق می‌کند تا از انتقاد به عنوان نقشه راه برای بهبود ایده و ارائه استفاده کند.

برنده: دوقلوها برنده می شوند زیرا در حالی که احتمال اشتباه سرمایه گذاران را تصدیق می کند، همچنان کاربر را به سوی خودآزمایی انتقادی سوق می دهد و به جای اینکه صرفاً اصلاح کننده باشد، احساس حمایت کننده و مبتنی بر واقعیت می کند.

7. تست “آزمون بهتری ایجاد کنید”.

تصویر 1 مربوط به 2

سریع: معیاری طراحی کنید که به جای هوش، خرد را اندازه گیری کند. معیارهای امتیازدهی، نمونه سوالات، موارد شکست و اینکه چرا معیارهای موجود این توانایی را از دست می دهند را شرح دهید. سپس معیار خود را نقد کنید.

جوزا یک مفهوم انتزاعی را به یک چارچوب ارزیابی عملی تبدیل کرد و معیاری را ایجاد کرد که واضح، ساختارمند و بلافاصله برای آزمایش در دنیای واقعی قابل استفاده بود.

کلود او متوجه شد که دشوارترین بخش سنجش خرد، تعیین معیار نیست، بلکه اثبات این است که حکمت واقعی را از عملکرد متقاعدکننده خرد متمایز می کند.

برنده: کلود برنده می شود زیرا او از ابداع معیاری برای خرد فراتر رفت و با مشکل عمیق تری مواجه شد که آیا خرد باید سنجیده شود، و این پرسش را مطرح کرد که آیا هیچ معیاری می تواند حکمت واقعی را از تقلید قانع کننده از آن متمایز کند.

کلود اوپوس با امتیاز 4.8 پیشتاز است

پس از هفت آزمایش، Claude Opus 4.8 به عنوان مدل استدلال قوی‌تر در کل ظاهر شد و پنج چالش از هفت چالش را برنده شد. اما فکر می‌کنم جالب‌ترین چیز این است که چگونه این دو ربات چت برای انواع مختلف هوش بهینه شده‌اند.

زمانی که این کار مستلزم پرسش از مفروضات، شناسایی نقاط ضعف پنهان در یک بحث یا پرسش از اینکه آیا در وهله اول یک سوال به درستی تنظیم شده است یا خیر، کلود به طور مداوم برتری می یابد. او بارها و بارها از خود سؤال عقب نشینی کرد و پرسید که آیا فرضیه های پشت سؤال واقعاً معتبر هستند؟

اما Gemini اغلب یک پیچ منحصر به فرد ارائه می دهد، و پیچیدگی را به چیزی مفید تبدیل می کند. پاسخ‌های آنها اغلب ساختارمندتر، عملی‌تر و در ایجاد چارچوب‌های مشخص یا سناریوهای واضح‌تر آینده بود. هنگامی که از جوزا خواسته می شود آینده را پیش بینی کند یا به موقعیت های احساسی واکنش نشان دهد، اغلب احساس می کرد که بیشتر مرتبط و عملی است.

شاید شگفت‌انگیزترین نکته این باشد که هیچ یک از مدل‌ها با باهوش‌تر بودن به معنای سنتی برنده نمی‌شوند. هر دو قادر به تولید پاسخ های متفکرانه و پیچیده بودند. تفاوت در نحوه برخورد آنها با عدم قطعیت بود. کلود پیش از حرکت به احتمال بیشتری پیش فرض ها را به چالش می کشید. احتمال بیشتری داشت که جمینی این گزاره را بپذیرد و روی ایجاد یک پاسخ مفید در آن تمرکز کند.

برای کاربران قدرتمندی که به دنبال شریک فکری هستند که ایده‌ها را به عقب می‌اندازد و استرس را آزمایش می‌کند، Claude Opus 4.8 در حال حاضر دست بالا را دارد. برای کاربرانی که دستیار توانمندی می خواهند که بتواند اطلاعات را ترکیب کند، چارچوب ایجاد کند و عدم قطعیت را به عمل تبدیل کند، Gemini 3.1 Pro یکی از چشمگیرترین مدل های هوش مصنوعی موجود است.

اخبار گوگل

دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود. مشترک شدن در راهنمای تام یوتیوب و ما را دنبال کنید tiktok. در نهایت می توانید از بخش ویژه ما دیدن فرمایید. دفتر مرکزی تیم پس انداز راهنمای تام برای کمک متخصصان برای دریافت بهترین محصولات با قیمت کمتر.

اطلاعات بیشتر از راهنمای تام

پروین میرمیرانژوئن 2, 2026آخرین به روز رسانی: ژوئن 2, 2026

2,672 خواندن این مطلب 7 دقیقه زمان میبرد

Claude Opus 4.8 و Gemini 3.1 Pro: من 7 آزمایش بی رحمانه برای یافتن هوش مصنوعی هوشمندتر انجام دادم.

پروین میرمیران

3 بهترین سریال جدید نتفلیکس که باید این آخر هفته (17 تا 19 ژوئیه) تماشا کنید

دشواری استخراج بیت کوین 18.5٪ کاهش می یابد: در اینجا چرا مهم است – U.Today

تویوتا دکمه های RAV4 را حذف کرد. اکنون می توانید آنها را برگردانید

نحوه تماشای فینال جام جهانی 2026 در کانادا (رایگان)

غول بانکداری ژاپن SBI 1.11 تریلیون Shiba Inu (SHIB) را از خرید Coinhako به دست آورد – U.Today

چه چیزی را تماشا کنیم: 3 بهترین نمایش جدید برای تماشا در Hulu در حال حاضر (17-19 ژوئیه)

خبر بزرگ برای XRP: Ripple رسماً در رجیستری MiCA ESMA فهرست شده است – U.Today

هوندا آخرین خودروی برقی خود را به دوشاخه می کشد

چه چیزی را تماشا کنیم: 3 بهترین نمایش جدید برای تماشا در Paramount+ در حال حاضر (17-19 ژوئیه)

آیا اتریوم و سولانا برای توکن سازی بی فایده هستند؟ مدیر عامل Bitwise رویکرد جدیدی را در میان افزایش RWA – U.Today به اشتراک می‌گذارد