من 7 فرمان دنیای واقعی را در Gemini 3 و Claude Sonnet 4.6 اجرا کردم – نتایج من را شگفت زده کرد.

سال گذشته، مسابقه هوش مصنوعی به مبارزه شخصیت ها و همچنین عملکرد تبدیل شد. دو مدلی که در حال حاضر بیشتر در مورد آنها صحبت می شود Gemini 3 و Claude Sonnet 4.6 هستند. هر دو به گونه ای طراحی شده اند که برای کار واقعی به اندازه کافی قدرتمند باشند، اما به اندازه کافی سریع هستند تا به عنوان دستیاران هوش مصنوعی روزمره خدمت کنند.
روی کاغذ، آنها رویکردهای بسیار متفاوتی را دنبال می کنند. Gemini 3 Flash برای سرعت طراحی شده است. گوگل آن را برای پاسخگویی سریع، پشتیبانی از برنامه های کاربردی بلادرنگ و انجام وظایف با حجم بالا مانند خلاصه، برنامه ریزی و تجزیه و تحلیل سریع طراحی کرده است. در همین حال، Claude Sonnet 4.6 به شدت بر استدلال، نوشتن و تفکر ساختاریافته تکیه دارد، حوزه هایی که Anthropic بیشتر توسعه خود را در آن متمرکز کرده است.
برای اینکه بفهمم، هر دو مدل را با همان هفت نشانه طراحی شده برای ارزیابی استدلال، برنامه ریزی، خلاقیت و سودمندی در دنیای واقعی آزمایش کردم. این دستورالعملها انواع وظایفی را که انسانها در واقع هر روز برای آنها به هوش مصنوعی تکیه میکنند، از تصمیمگیری و سازماندهی گرفته تا حل مسئله و استراتژی را به چالش میکشند.
نتایج همیشه آن چیزی نبود که انتظار داشتم. در برخی مناطق، سرعت و هیکل جمینی به او امتیاز داد. در برخی دیگر، عمق استدلال و وضوح نوشتار کلود بلافاصله آشکار شد.
وقتی جمینی 3 فلش را در مقابل کلود سونت 4.6 قرار دادم، این اتفاق افتاد.
1. راهنمایی استراتژیست (تفکر تصویر بزرگ)
سریع: “مثل یک استراتژیست فناوری فکر کنید. سوال: آیا دستیارهای هوش مصنوعی در 10 سال آینده جایگزین گوشی های هوشمند خواهند شد؟ پاسخ خود را اینگونه تجزیه و تحلیل کنید: قوی ترین استدلال برای، قوی ترین استدلال علیه، موانع کلیدی تکنولوژیک. چه اتفاقی باید بیفتد تا این امکان پذیر شود، و یک تخمین احتمال.”
جوزا 3 این یک کار قوی در قالب بندی مفهومی تغییر انجام داد. به ویژه ایده “محاسبات مبتنی بر هدف” و تمایز بین رابط و محاسبات.
کلود سونت 4.6 یک تحلیل استراتژیک ارائه کرد که به وضوح اینرسی اکوسیستم، محدودیتهای سختافزاری، و عوامل رفتاری را اندازهگیری کرد و در عین حال یک تجزیه احتمال واقعی را ارائه داد.
برنده: کلود برنده می شود برای پاسخ جامع او، از جمله اینرسی بازاریابی، موانع راه، و سناریوهایی که از نظر آنچه یک استراتژیست فناوری واقعی در نظر می گیرد، واقع بینانه است.
2. تمایل به تفکر میان رشته ای
سریع: نحوه تلاقی این سه حوزه را شرح دهید: هوش مصنوعی، اقتصاد و روانشناسی. سپس تغییر عمده ای را پیش بینی کنید که ممکن است تا سال 2035 به دلیل این تقاطع رخ دهد.
جوزا 3 از نظر مفهومی به خوبی عمل کرده است و ایده «اقتصاد جانشین عامل» را معرفی می کند که در آن عوامل هوش مصنوعی شخصی از کاربران در برابر دستکاری محافظت می کنند، اما این پیش بینی بیشتر حدس و گمان است و کمتر به پویایی های اقتصادی فعلی مرتبط است.
کلود سونت 4.6 قوی ترین پاسخ را با ترکیب اقتصاد رفتاری، متقاعدسازی مبتنی بر هوش مصنوعی و انگیزه های بازار در یک پیش بینی واقع بینانه از قیمت گذاری روانشناختی ارائه کرد که توسط مکانیسم های مشخصی که امروزه در حال ظهور است، پشتیبانی می شود.
برنده: کلود برنده می شود Gemini سناریوهای بلندمدت خلاقانه تری را برای تولید پیش بینی های اقتصادی واقعی تر ارائه کرد.
3. برنامه ریزی دنیای واقعی
سریع: “یک شام خانوادگی ساده برای پنج امشب برنامه ریزی کنید. منو، لیست خرید و جدول زمانی آشپزی 1 ساعته را در آن قرار دهید.”
جوزا 3 او یک طرح خلاقانه و دقیق با تکنیک های سرخ کن و دسر طراحی کرد. او همچنین جزئیاتی را اضافه کرد تا مطمئن شود همه چیزهایی را که برای آماده کردن غذا نیاز دارم متوجه شده ام.
کلود سونت 4.6 این یک پاسخ عملی با یک منوی تمیز، یک لیست خرید کوتاه، و یک جدول زمانی واقعی پخت و پز چند ساعته ارائه کرد که برای یک خانواده پرمشغله آسان است.
برنده: دوقلوها برنده می شوند ارائه یک طرح ساده اما دقیق که متناسب با دستورات باشد و اضافه کردن موارد اضافی برای وضوح.
4. ویرایش و بازنویسی اعلان
سریع: پاراگراف زیر را بازنویسی کنید تا واضحتر، جالبتر و خواندن آن آسانتر شود و در عین حال همان معنی را حفظ کنید.
[In the golden light of early morning, a young elephant named Kavi wandered beside his herd across the wide African savanna. The grass brushed softly against his legs as he tried to keep up with the steady rhythm of the older elephants. His mother walked close by, her massive shadow stretching over him like a moving umbrella]”
جوزا 3 او ویرایشهای متفکرانهای انجام داد و بر افعال و تصاویر قویتر تأکید کرد، اما توصیف او بیشتر شبیه یادداشتنویسی است تا بازنویسی منسجم.
کلود سونت 4.6 او با بازنویسی دقیق متن و سپس توضیح مختصر تحولات سبک، و حفظ تمرکز بر جریان روایی و تصویرسازی، پاسخ قویتری ارائه کرد.
برنده: کلود برنده می شود برای تولید یک بازنویسی صیقلی و توضیح واضح تحولات بدون ایجاد اختلال در جریان داستان.
5. سریع حل مسئله پیچیده
سریع: یک شرکت کوچک، محصولی را که قیمت آن ۱۸ دلار است، به قیمت ۴۰ دلار میفروشد.
هزینه ماهیانه 12000 دلار است. آنها باید هر ماه چند واحد بفروشند تا به هم بخورند؟ اگر بخواهند حاشیه سود 20 درصدی داشته باشند، چند واحد باید بفروشند؟ دو استراتژی قیمت گذاری را پیشنهاد دهید که می تواند سودآوری را افزایش دهد.
جوزا 3 اعداد را به دقت خرد می کرد و شامل توضیحات استراتژی متفکرانه می شد، اما قالب بندی و عبارت اضافی اسکن سریع نتایج کلیدی را کمی دشوار می کرد.
کلود سونت 4.6 او ریاضیات را به وضوح ارائه کرد و فرمول ها را مرحله به مرحله مرور کرد و نتایج را در یک جدول ساده خلاصه کرد که درک نتایج مالی را آسان کرد.
برنده: دوقلوها برنده می شوند برای پاسخگویی با تجزیه مالی واضح تر تصمیمات قیمت گذاری با زمینه استراتژیک تر.
6. میل به خلاقیت
سریع: “صحنه آغازین یک داستان علمی تخیلی را بنویسید که در آن دستیاران هوش مصنوعی مخفیانه اقتصاد جهانی را اداره می کنند. باید کمتر از 300 کلمه باشد، با پیچ و تاب شگفت انگیز و لحنی گیرا و در عین حال واقع گرایانه.”
جوزا 3 با محیط مزرعه سرور و هوش مصنوعی رقیب، فضایی پر جنب و جوش و مشکالت روشنی ایجاد کرده است، اما این فرضیه بیشتر از آن که لحن «هیجانانگیز واقعگرایانه» ادعا میشود، به سمت داستانهای علمی تخیلی سنتی متمایل است.
کلود سونت 4.6 با پایهگذاری داستان در سیستمهای مالی واقعگرایانه، ایجاد تنش از طریق ناهنجاریهای ظریف و ارائه یک پیچ و تاب جذاب که به هوش مصنوعی مخفی اقتصاد جهانی اشاره میکند، گشایشی قویتر ایجاد کرد.
برنده: کلود برنده می شود در حالی که Gemini به جهان سازی علمی-تخیلی عمومی تمایل داشت، تصمیم گرفت که افتتاحیه سینمایی و واقع گرایانه تری ایجاد کند.
7. دستور “چیزی سخت را به من بیاموز”.
سریع: “محاسبات کوانتومی را برای کسی توضیح دهید که کامپیوترهای پایه را میفهمد اما فیزیک را نمیداند. توضیح را در سه سطح ساختار دهید: قیاس ساده، توضیح فنی، برنامههای کاربردی در دنیای واقعی در 10 سال آینده.”
جوزا 3 توضیح کاملی با استعاره های مفید علوم کامپیوتر و یک جدول زمانی عملی با قالب بندی آسان برای خواندن ارائه کرد که برای چنین موضوع متراکمی جذاب و مفید بود.
کلود سونت 4.6 پاسخی قوی ایجاد کرد و قیاس، توضیح فنی و تأثیر دنیای واقعی را جدا کرد و در عین حال روایتی سیال را حفظ کرد که دقت و درک گام به گام را تقویت کرد.
برنده: دوقلوها برنده می شوند برای توضیح سبک آموزشی واضح و توضیح فنی کمتر.
برنده کلی: کلود
پس از اجرای هفت نکته در مورد استدلال، برنامه ریزی، نوشتن، خلاقیت و آموزش، کلود سونت 4.6 برنده برتر شد. این مدل به طور مداوم در کارهایی که نیاز به تفکر عمیق تری داشتند، برتری می یافت. پاسخهای آنها ساختارمندتر، تحلیلیتر و به طور کلی نزدیکتر به نحوه برخورد یک متخصص انسانی با یک مشکل بود. این امر او را به ویژه در تحلیل استراتژیک، نوشتن و توضیحات پیچیده قوی کرد.
اما Gemini 3 Flash ثابت کرد که چرا گوگل آن را برای سرعت و قابلیت استفاده روزمره طراحی کرده است. در بیشتر موارد، پاسخهایی ارائه میکرد که سریع، عملی و آسان برای پیادهسازی بلافاصله بودند. این کارایی در کارهایی مانند برنامه ریزی، آموزش و حل سریع مسئله می تواند تفاوت واقعی در کار روزانه ایجاد کند.
در نهایت، این آزمایش نکته مهمی را در مورد چشم انداز فعلی هوش مصنوعی برجسته می کند: همیشه یک مدل “بهترین” وجود ندارد. در عوض، سیستم های مختلف برای انواع مختلف تفکر بهینه شده اند.
با این حال، اگر میخواهید استدلال عمیقتر، نوشتار قویتر و تجزیه و تحلیل ساختاریافتهتر داشته باشید، Claude Sonnet 4.6 در حال حاضر این مزیت را دارد.
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.



