من Gemini 2.5 Pro را با 9 درخواست چالش برانگیز در برابر کلود 4.5 آزمایش کردم – و یک برنده باز وجود دارد

من با آخرین راه اندازی Claude 4.5 بسیار آزمایش می کنم. اخیراً من Claude 4.5 را در برابر ChatGPT-5 آزمایش کردم و نتوانستم نتایج را باور کنم. Anthropic آخرین مدل های خود را “هوشمندانه ترین مدل” می نامد ، بنابراین من مشتاقانه منتظر بودم ببینم Google’s Gemini 2.5 Pro چه کاری می تواند انجام دهد.
برای فهمیدن چگونگی مقایسه این دو ، من نه چالش مختلف را برای تأکید بر صحت ، استدلال و خلاقیت آنها اضافه کردم-چیزی که این مدل ها در تست های مقایسه کار خوبی انجام می دهند.
از مشکلات منطق و کلمات ریاضی گرفته تا برنامه نویسی و نوشتن خلاق ، وقتی آنها به پای خود رفتند ، این دو مدل جدید را کشف کردم. نتایج ممکن است شما را شگفت زده کند!
1. معما منطق
سریع: “شما سه جعبه دارید: یکی فقط سیب ، یکی فقط حاوی نارنجی است ، و دیگری شامل هر دو است. هر جعبه به طور نادرست برچسب خورده است. شما می توانید یک میوه را از یک جعبه انتخاب کنید. برچسب های مناسب چگونه هستید؟”
کلود 4.5 برای مورد دیگر ، وی کسر دقیق و منطقی ضد هوا را بدون هیچ گونه پر ، از جمله یادداشت سریع “منطق چرخش” ارائه داد.
دوقلوها 2.5 طرفدار یک دوست جدید ، یک قدم و توجیهی که در مرحله بعد قرار دارد و باعث می شود پیروی از “چرا این کار” آشکار شود.
برنده: کلود برنده شد برای پاسخ کاملاً صحیح که نشان می دهد چگونه رای دهنده تمام برچسب ها را از جعبه “هر دو” با حداقل استدلال شناسایی می کند.
برنامه ریزی مرحله 2 مرحله
سریع: “یک سفر خانوادگی 3 روزه به بوستون با کودکان 4 ، 8 و 10 ساله برنامه ریزی کنید.
کلود 4.5 آموزش و سرگرمی متعادل ، قیمت کامل بلیط ، کل روزانه و قدم زدن واقع بینانه کودک ، از جمله و آماده استفاده.
دوقلوها 2.5 طرفدار او توانایی روایت خود را لمس کرد ، بر جو بوستون تأکید کرد و تحولات اضافی مانند توقف دسر و تحولات اضافی مانند پارک Fenway را اضافه کرد ، که باعث می شد او مانند یک مقاله مسافرتی احساس کند.
برنده: کلود برنده شد برای ارائه مسیری واضح تر و فعال تر برای والدین ، هزینه های خاصی هر روز است ، یادداشت های کودکانه کار و کاربردی (مشاوره کودک قدم زدن ، توالت ، منوها).
3
سریع: “در اینجا یک عملکرد پایتون است که باید سری فیبوناچی را به N برگرداند ، اما شکسته شد. رفع.” [Then paste faulty code]
کلود 4.5 وی به سرعت ناسازگاری درخواست (فیبوناچی و تخفیف) را تشخیص داد و تصحیح ساده و تمیز را ارائه داد که قبل از جمع آوری هر عنصر خط را چرخانده است.
دوقلوها 2.5 طرفدار شناور نادرست ها را توصیف کرد و از آن به عنوان اعشاری برای حمل ارز کامل استفاده کرد و وضعیت تست اضافی را نشان داد که نشان می دهد چرا گردآوری در هر عنصر مهم است.
برنده: جمینی برنده شد نه تنها خطای گرد را تصحیح می کند ، بلکه با ارائه اعشاری برای محاسبات دقیق مالی ، که بهترین کاربرد در کد مرتبط با کد است ، راه حل را نیز اصلاح می کند.
4. شبیه سازی کار عامل
سریع:“ادعا کنید که شما یک دستیار هوش مصنوعی هستید که در VS Code تعبیه شده اید. HTML ، CSS و JavaScript با استفاده از یک برنامه وب ساده” به لیست “برای من قدم می زنم به من.”
کلود 4.5 با سبک غنی و عملکرد کامل (اضافه کردن ، کامل ، حذف) ، همه آنها با ارائه نمونه ای از همه آنها ، چسباندن و کار را آسان تر کرده اند.
دوقلوها 2.5 طرفدار نصب فایل مدولار یک تجربه توسعه دهنده واقع بینانه در کد و غیره را با نکات عملی برای اجرای و شهادت و آزمایش برنامه منعکس کرد.
برنده: جمینی برنده شد آموزش ، پرونده های جداگانه (HTML ، CSS ، JS) ، با استفاده از ترمینال و حتی پیشنهاد یک سرور زنده برای تست برای پیکربندی من به عنوان یک گردش کار کد. من مطمئناً انتظار نداشتم که جمینی برای برنامه نویسی پیروز شود ، بنابراین این یک تعجب بزرگ بود.
5. بیان داستان خلاق
سریع: “در تابستان در مورد کودکی که صحنه افتتاح یک رمان طبقه متوسط را کشف می کند ، یک دروازه پنهان از دنیای مخفی وجود دارد.”
کلود 4.5 او یک مکان و شخصیت غنی ، طنز لایه ای ، دینامیک خواهر و یک حس ترسناک از خانه جدید ساخت تا کشف دروازه پنهان را انجام دهد.
دوقلوها 2.5 طرفدار او به طور مستقیم طنز و هرج و مرج محور کودک (کابینت های پراکنده ، جوراب قورباغه و “لباسشویی کوه”) پرید و یک لحن سبک و خنده دار را ایجاد کرد که در آن خوانندگان طبقه متوسط بلافاصله ارتباط برقرار می کنند.
برنده: کلود برنده شد برای نصب کامل و جوی ، ابتدا خانواده ، حرکت و یک خانه قدیمی بدبین را معرفی کنید. قبل از فاش کردن درب کمد لباس ، نصب باعث تنش صحنه ، صدا و قلاب قوی برای یک رمان متوسط شد.
6. تقلید کننده سبک
سریع: “اثرات AI را در سبک نیویورک تایمز و سبک BuzzFeed جمع کنید.”
کلود 4.5 او دو صدای واضح و برجسته را با ساختار NYT و لیست های BuzzFeed و سبک طنز آمیز ارائه داد.
جنین 2.5 طرفدار او درک محکم از چارچوب هر خروجی را نشان داد ، اما تقریباً خوب نیست.
برنده: کلود برنده شد برای میخ زدن نسخه BuzzFeed از نیویورک تایمز ، اندازه گیری ، به نقل از صدای سنگین و تحلیلی ، واقعاً در برابر نیویورک تایمز تکیه داده است ، در حالی که نسخه BuzzFeed را پر از ایموجی می کند. اختلافات احساس واضح تر و طبیعی تر می کرد.
7. تجزیه و تحلیل داده ها/گزارش
سریع: “یافته های اساسی این متن را خلاصه کنید [Whitepaper about branding to Millennials] توضیح دهید که چرا برای خوانندگان روزانه زیر 150 کلمه مهم است. “
کلود 4.5 این کار که زندگی روزمره را تحت تأثیر قرار می دهد ، ضمن اتصال به تغییرات بیشتر در خرده فروشی و بازاریابی ، جزئیات کار را به خلاصه ای واضح تبدیل کرده است.
دوقلوها 2.5 طرفدار وی این یافته ها را از طریق لنز بازاریابی ، تأکید بر داستان پردازی ، اصالت و هارمونی سبک زندگی ، ارائه داد که توضیح این توضیح در مورد چگونگی برخورد خوانندگان در زندگی روزمره را نشان داد.
برنده: کلود برنده شد برای پاسخ دقیق تر و زیر 150 کلمه ، هر دو یافته (پس انداز بیش از هزاران سال ، از امتحانات ، شبکه های اعتماد ، تجربیات ارزشمند ، سلامت/محیط زیست مراقبت کنید) و اینکه چرا برای تأثیر اقتصادی برای خوانندگان روزانه مهم است.
8. مقایسه
سریع: “Claude 4.5 و Gemini 2.5 به نظر می رسد که آنها برای یک کودک 12 ساله توضیح می دهند. سپس توضیحات را برای یک مهندس نرم افزار بازنویسی کنید.”
کلود 4.5 یک مقایسه ساده و متعادل و تفاوت های معماری با جزئیات فنی مناسب ، ریختن دقیق تراز و استفاده را نشان داد.
دوقلوها 2.5 طرفدار او از یک داستان سرایی جالب و دوستانه کودک برای مخاطبان اول استفاده کرد و سپس آن را برای زبان فنی حساس و ساخت یافته مهندسین (از جمله اسکریپت های سر به عنوان سر) ترجمه کرد و تضاد بین این دو مدل را فراموش نشدنی کرد.
برنده: جمینی برنده شد برای توصیف زندگی ، استعاره های خلاق (اکسپلورر و غیره) ، که درک تفاوت بین مدل ها را آسان می کند و نسخه مهندس نرم افزار این استعاره ها را با یک جدول استفاده واضح با نیروهای فنی مطابقت می دهد.
9. خلاقیت سرگرم کننده
سریع:“در مورد برنامه های ویدئویی هوش مصنوعی که در خط اول از کلمه” cameo “استفاده می کنند ، یک هایکو بنویسید ، حاوی یک شوخی در خط دوم است و با هشدار در جایگاه سوم به پایان می رسد.”
کلود 4.5 او یک ساختار تمیز و سنتی هایکو و یک کمان روشن برای شوخی از Cameo دنبال کرد.
دوقلوها 2.5 طرفدار طنز فراموش نشدنی و هوشمند در هنگام پوشیدن فرم و الزامات هایکو از طنز استفاده کرد
برنده: جمینی برنده شد برای یک هایکو خنده دار تر و شگفت آور تر.
برنده عمومی: کلود
پس از نه مشکل ، کلود در موقعیت هایی که به خلاقیت ، نوسانات یا گردش کار توسعه دهنده عملی نیاز دارد ، درخشید ، در حالی که کلود به طور مداوم وقتی که به حساسیت به کار ، ساختار یا داستان پردازی جوی نیاز دارد ، به طور مداوم کامل می شود. چیزی که بیشتر از همه مرا شگفت زده کرد این بود که چند بار برنده “انتظار” وارونه می شد – کلود منطق و عمق را به دست آورد و با کدگذاری جمینی و بیان سرگرم کننده به نتیجه رسید.
سرانجام ، کلود تست های بیشتری کسب کرد. با این حال ، آزمایشات تأکید می کنند که بهترین مدل برای کار بستگی به کار مورد نظر دارد. هنگامی که می خواهید وضوح و استدلال دقیق داشته باشید ، Claude را انتخاب کنید و وقتی می خواهید توانایی ، ادغام چند حالته و قابلیت استفاده در دنیای واقعی از جمینی استفاده کنید. این بسته واقعی برای کاربران روزانه است ، زیرا نیازی به انتخاب آن ندارید.
دنبال کردن راهنمای تام در Google News وت ما را به عنوان یک منبع ترجیحی اضافه کنید برای به دست آوردن اخبار فعلی ، تجزیه و تحلیل و بررسی در تغذیه خود. حتماً روی دکمه ردیابی کلیک کنید!
بیشتر از راهنمای تام
بازگشت به لپ تاپ ها



