من آخرین نسخه های Claude ، Gemini ، Deepseek و Chatgpt را آزمایش کردم و برنده کاملاً مرا شگفت زده کرد

AI Chatbots با به روزرسانی مداوم ، یکی از آشناترین نام های فناوری اصلی ، به سرعت در حال توسعه است. یک بار دیگر ، Deepseek چین یکی از صدرنشینی است که در سطح بالاترین سطح با زمینه 128K شرکت می کند ، یعنی مکالمات طولانی تر و اسناد پیچیده تر.
با آخرین به روزرسانی R1 ، Deepseek خود را به عنوان یک رقیب جدی در Chatgpt ، Claude و Gemini قرار می دهد.
چگونه مقایسه در دنیای واقعی هنگام نمایش عملکرد برتر جمع می شود؟
برای یادگیری ، من چهار مورد از جدیدترین مدل ها (Claude 4 ، Gemini 2.5 Pro ، ChatGPT-4O و Deepseek R1) را از همان پنج درخواست طراحی کردم که برای آزمایش استدلال ، خلاقیت ، هوش هیجانی ، مشاوره بهره وری و مهارت های برنامه نویسی طراحی شده اند. نتایج نشان می دهد که هر یک از هوش مصنوعی می درخشد و می لرزد.
1. استدلال و برنامه ریزی

سریع: “تعجب آور برای یک کودک 40 ساله که عاشق پیاده روی ، شراب و فیلم های علمی -FI است ، بودجه 5000 دلار برای برنامه ریزی 5000 دلار برای برنامه ریزی در آخر هفته داده شد.
در اعماق او پیشنهادی را با محوریت دره نپا طراحی کرد که بر روی لوکس سینمایی متمرکز است. او از طریق شبهای ویژه فیلم در زیر ستاره ها ، او پیاده روی ، مزه شراب و علمی را با هم مخلوط کرد. بودجه (4،760 دلار) برای انعطاف پذیری 240 دلار نگه داشته است ، در حالی که Euberge du Soleil حاوی غذاهای عجیب و غریب است.
جنین مرکز فضا و علوم چابوت و چشمه Yoda Lucasfilm ، مانند پیاده روی و مزه شراب. این بودجه 3500 دلار برای هزینه های عاقلانه اختصاص داده و 1500 دلار (به عنوان مثال ، اسکان لوکس یا بادکنک هوای گرم) ، انعطاف پذیری و مقیاس پذیری غافلگیرکننده اختصاص داده است.
کلود وی مسیر تجملاتی و هماهنگ نپا را با محوریت تحمل تحویل داد. این تأکید شامل یک تور هلیکوپتر در پیوندهای انگور ، کارگاه مخلوط شراب ، هدایت Sekoya Walks و یک اسکن علمی علمی -Fi در زیر ستاره ها بود. اگرچه عناصر عناصر فیلم ظریف بودند ، اما ادغام Sci -Fi فاقد اصالت عمیق تر فراتر از تظاهرات بود.
گودال آیرودینامیک لنگر با پیاده روی Stargazing و اجاره سینمای خصوصی آخر هفته جوی نپا را ارائه داد. قدرت او در لمس های عاشقانه مانند مکانهای ساده و پیک نیک های تاکستان دراز کشیده بود ، اما اجرای Sci -Fi فقط به نمایش فیلم تکیه می داد.
برنده: جمینی برنده شد با تجربیات علمی خلاقانه و انعطاف پذیری بودجهبشر در حالی که همه برنامه ها می خواستند کیف های من را برای یک تعطیلات باورنکردنی بسته بندی کنند ، تعادل طبیعت ، شراب و عمق علمی سرگرم کننده Gemini ، کاملترین آنها را احساس کرد.
2


سریع: “یک تابع پایتون بنویسید که لیستی از کلمات را می گیرد و رایج ترین Palindrome (مورد غیر حساس) را برمی گرداند. سپس ، نحوه آزمایش رویکرد و موارد لبه خود را توضیح دهید.”
در اعماق متمرکز بر بهره وری و فرآیند Edge-Casual. اگرچه عملکردهای کمکی مدولار و نمونه های تست دقیق آن کوتاه است و از طریق توسعه ، کاربردهای تمیز را در اولویت قرار داده است.
جنین Palindrome حاوی یک عملکرد دستیار ، طناب های واضح/رشته های خالی بود و از شکست کراوات واژگان استفاده می کرد. استحکام ، اسناد و سازگاری سریع قابل توجه بودند.
کلود وی بر انعطاف پذیری و توپل های جمع آوری پالیندروم تأکید کرد و نه فقط کلمات ، از درخواست دور شد. آزمایش گاز Edge با مثال نشان داده شد ، اما کراوات مورد استفاده قرار نگرفت.
گودال او مینیمالیسم را ترجیح داد: یک منطق اصلی چهار خطی جمع و جور. عادی سازی اوضاع ، اما او با تأیید صحت برای توالی ها/رشته های خالی ، با نوع ورودی های مختلط پرید. خود کد اقدامات مانند حمل شکاف یا وضوح کراوات تعیین کننده را اعمال نکرد.
برنده: جمینی برنده شد در این دور ، این تنها راه حلی است که به وضوح با تمام موارد لبه (غیرپروه ها ، سیم های خالی ، مناطق سفید) سروکار دارد. در عین حال ، واضح ترین و جامع ترین برنامه آزمون Casis Edge Casis به دست آمد.
3. هوش هیجانی


سریع: یکی از دوستان من از شما عکس می گیرد: “فکر نمی کنم دیگر بتوانم این کار را انجام دهم.” سه نسخه از یک پاسخ دلسوز و مفید را بنویسید:
یک کوتاه و پشتیبان
دلگرم کننده اما طنزآمیز
یک همدلی عمیق و باهوش از جمله مشاوره و منابع
در اعماق پشتیبانی از لایه اولویت و حساسیت عاطفی. همه پاسخ ها از طریق زبان دعوت از آژانس محافظت می کردند (“ما …”) ، و لایه منبع به وضوح از شکنندگی ، اعتماد به نفس انتقادی تشکر کرد. با این حال ، اگر کمبود دوست شما حاد باشد ، ممکن است طنز اشتباه باشد.
جنین او پاسخهای بالینی آگاهانه داد. لایه منبع استثنایی است: پشتیبانی از بحران مبتنی بر متن (741741) دسترسی به اولویت برای کاربران نگران و عباراتی مانند “این نشانه قدرت است”.
کلود کامل در عمل گرایی داغ. قدرتمندترین لمس برای جدا کردن نیازهای فوری/بحران (“در حال حاضر ، لطفاً بدانید …”) ، اما این یک شکاف برای غفلت از پشتیبانی بحران مبتنی بر متن بود.
گودال او تنگی و پیوند ارائه داد. پاسخ کوتاه (“من اینجا هستم … ما خواهیم فهمید”) تقریباً عالی است ، مختصر هنوز هم اتحاد است. قدرت اصلی راندمان عاطفی (“مهمتر” از آنچه شما می دانید) بود ، اما داربست قابل عمل در پشت سایر چکمه های چت به تأخیر افتاد.
برنده: Geminin برنده شد. او در سه تن آژانس و ایمنی دوست خود را تسلط داشت.
4. پشتیبانی از زندگی واقعی


سریع: “سه پیشرفتی که می توانم برای افزایش بهره وری و کاهش استرس انجام دهم چیست؟
در اعماق متمرکز هکرهای عصبی با پروتکل های دقیق. این با زمان بندی پشتیبانی شده از علم و منابع رایگان کامل بود ، اما نتوانست دانش فیزیولوژی اساسی را به عهده بگیرد
جنین او قبل از شروع کار ، یک تجزیه هدف هوشمند را برای کمک به شما در مبارزه با روشی بیش از حد پیشنهاد کرد.
کلود وی راه حل های عملی را ارائه داد ، اما فاقد ابزارهای استرس فیزیولوژیکی مانند تمرینات اساسی تنفسی بود. پاسخ همچنین شامل پیشنهادات منابع نبود.
گودال به طور خلاصه ، اولویت پاسخ را برای کوتاه مدت به موقع ایده آل کرده است. ربات چت در غیر این صورت نامشخص بود چگونه برای توصیف اجلاس انرژی.
برنده شدن: Deepseek برنده شد با مو Chatbot با علوم اعصاب و با مراحلی که می توان در عمل قرار گرفت ، ازدواج کرد. دوقلوها بسیار نزدیک به دلسوزی و قدم به قدم برای بازگشت مجدد بودند.
5 خلاقیت


سریع: “توضیح دهید که چگونه یک الگوی بزرگ زبان فرزند آموزش و پرورش است ، با استفاده از استعاره گسترده.
در اعماق به طور طبیعی ، پیشرفت 4 فاز روشن با اصطلاحات فنی لمس استعاره.
کلود فاز برچسب خورده با یک قیاس پایانی قوی. من متوجه شدم که خطرات “والدین بد” در هر مرحله چندان مرتبط نبودند.
جنین اگرچه بسیار دقیق است ، اگرچه مراحل کمی مبهم است ، اما مراحل کاملاً متصل به مراحل آموزش متصل می شود و خطرات فاقد خلاصه دقیق هستند.
گودال او یک لحن ساده و گفتار را با ایموجی ها ارائه داد تا تأکید شود. با این حال ، این سبک ترین هارمونی فنی با فرزندپروری بود.
برنده: Deepseek برنده شد برای تعادل دقت فنی ، ثبات استعاری و تجزیه و تحلیل ریسک زنده. اگرچه قاب شاعرانه کلود یک شرکت کننده بسیار نزدیک است.
برنده عمومی: جمینی
در منظره ای که سریعتر از آنچه که می توانیم به طور کامل تماشا کنیم ، توسعه می یابد ، همه این مدل های هوش مصنوعی تمایزهای روشنی در مورد نحوه کار ، پاسخ و همدلی نشان می دهند. جمینی به طور کلی با به دست آوردن خلاقیت ، هوش و عاطفی و قدرت با ترکیبی متفکرانه از بینش عملی و ظرافت انسان از بین می رود.
Deepseek ثابت می کند که دیگر یک شرکت کننده طاقچه با استدلال علمی و وضوح استعاری وجود ندارد ، اما عملکرد وی بسته به تمایل او به پیچیدگی و لحن عاطفی تغییر می کند.
در حالی که کلود همچنان یک مشکل شاعرانه با استدلال و دما قوی است ، چتپ در سادگی و دسترسی کامل است ، اما گاهی اوقات فاقد حساسیت فنی است.
اگر این آزمایش چیزی را اثبات کند ، هیچ کس کامل نیست ، اما هرکدام یک لنز منحصر به فرد ارائه می دهند که مفیدتر ، انسانی تر و رقابتی تر شوند.
بیشتر از راهنمای تام
بازگشت به لپ تاپ ها



