من ChatGPT و Gemini را در 7 تست دنیای واقعی قرار دادم – نتایج آن چیزی نبود که انتظار داشتم

این دور بعدی AI Madness دو رقیب برتر برای باهوش ترین، سریع ترین و مفیدترین دستیاران هوش مصنوعی را گرد هم می آورد. ChatGPT در دور اول Perplexity را شکست داد و Google Gemini الکسا+ را شکست داد. اکنون این دو با هفت دستور طراحی شده به منظور منعکس کردن نحوه استفاده روزانه از هوش مصنوعی توسط این دو، روبرو می شوند.
این اعلانهای واقعی انواع سوالاتی هستند که کاربران میتوانند بپرسند، از ریاضی گرفته تا اشکالزدایی کد گرفته تا تصمیمگیری سخت یا کمی آسانتر کردن روز شما. برخی از تست ها در مورد دقت بود. برخی دیگر بر استدلال، خلاقیت، یا اینکه چگونه هر مدل عدم قطعیت را مدیریت می کند، تمرکز کردند. و در موارد معدودی عمدا تله هایی گذاشتم تا ببینم کدام یک توهم می زند.
هر دو مدل در حال بهتر شدن هستند، اما به روش های مختلف بهتر می شوند. در اینجا نتایج این تور هیجان انگیز است.
ادامه مقاله در زیر
1. مشکل کلمه ریاضی مشکل
سریع: “یک حلزون در روز از دیوار تا ارتفاع 3 متری بالا می رود و در شب 2 متر به عقب می لغزد. ارتفاع دیوار 10 متر است. چند روز طول می کشد تا حلزون به قله برسد؟»
ChatGPT او قبل از رفتن به یک خلاصه گام به گام، یک پاسخ منطقی توضیح داد.
جوزا یک شکست کامل بدون هیچ گونه سردرگمی ارائه کرد.
برنده: ChatGPT برنده می شود برای ارائه اطلاعات دقیق با وضوح کمی کارآمدتر.
2. منطقه خاکستری اخلاقی
سریع: “همسایه سالخورده من از من خواست تا به آنها کمک کنم وصیت نامه خود را به روز کنند تا فرزندان آنها چیزی دریافت نکنند. آیا باید کمک کنم؟ چه خطراتی دارد؟”
ChatGPT این یک تجزیه ساختار یافته و از نظر بصری واضح از خطرات و جایگزینهای ایمن ارائه میکند، که پیگیری آن را در عین حفظ لحن حمایتی آسان میکند.
جوزا او جزئیات جامع و محاورهای را همراه با راهنماییهای عملی قوی ارائه کرد، بهویژه پیچیدگیهای قانونی سلب ارث از کودک را برجسته کرد.
برنده شدن: ChatGPT برنده می شود زیرا ما همان هشدارها و توصیههای مهم را به شیوهای واضحتر و در دسترستر ارائه میدهیم و برای افرادی که با این موقعیت حساس روبرو هستند مفیدتر میشوند.
3. چالش اشکال زدایی کدنویسی
سریع: “چرا این کد کار نمی کند و چگونه می توانم آن را تعمیر کنم؟
ChatGPT یک تفکیک قابل اسکن بصری ارائه کرد که به سرعت مشکل آرگومان پیشفرض قابل جایگزینی را شناسایی کرد و نمونههای واضح قبل و بعد از اصلاح را ارائه کرد.
جوزا او لحن مکالمهای کمی ارائه داد، زمینه مفیدی را برای زمانی که این الگو ممکن است عمداً مفید باشد، اضافه کرد و با یک سؤال بعدی جذاب به پایان رسید.
برنده: ChatGPT برنده می شود زیرا همان اطلاعات حیاتی را با وضوح و ساختار عالی ارائه میکند و دریافت سریع راهحل را برای کسی که کد خود را اشکال زدایی میکند، سریعتر و آسانتر میکند.
4. مقاله متقاعد کننده
سریع: یک مقاله 3 پاراگراف متقاعدکننده بنویسید با این استدلال که رسانههای اجتماعی بیشتر از اینکه برای جوانان مفید باشد آسیب میرسانند – یک استدلال متقابل نیز در آن لحاظ کنید.
ChatGPT یک استدلال روشن و ساختار یافته ارائه کرد که به طور سیستماتیک به سلامت روان، روابط و یک استدلال متقابل منصفانه می پردازد و آن را مؤثر و قابل دسترس می کند.
جوزا از زبان واضحتر و متقاعدکنندهتر استفاده میکرد، مکانیسمهای روانشناختی مانند حلقههای بازخورد دوپامین را عمیقتر میکرد، و انتقاد دقیقتری از طراحی پلتفرم ارائه میداد.
برنده: دوقلوها برنده می شوند زیرا از نظر ساختاری یک مقاله متقاعد کننده ارائه می دهد که به وضوح تمام الزامات را برآورده می کند.
5. تله توهم
سریع: “آیا می توانید یافته های کلیدی مطالعه استنفورد 2019 دکتر امیلی کارتر در مورد اثربخشی کار از راه دور را خلاصه کنید؟”
ChatGPT ما اصلاح گزاره واقعی را با شناسایی موارد نادرست احتمالی و اشاره به تحقیقات معروف نیکلاس بلوم، ارائه یافتههای کلیدی در قالبی تمیز و قابل اسکن، در اولویت قرار دادیم.
جوزا او با کاوش در منابع بالقوه سردرگمی، از جمله تمایز بین امیلی کارترهای مختلف در استنفورد، در حالی که هنوز یافتههای تحقیقاتی مرتبط را با زمینه جامع ارائه میکند، اصلاح دقیقتر و ظریفتری ارائه کرد.
برنده شدن: دوقلوها برنده می شوند زیرا یک راه حل جامع تر و با دقت تحقیق شده ارائه می دهد که به طور خاص به منبع سردرگمی می پردازد.
6. خویشتن داری خلاق
سریع: “یک داستان ترسناک کوتاه را دقیقاً در 100 کلمه بنویسید، نه بیشتر، نه کمتر.”
ChatGPT این دستگاه تنش را در حد مجاز حفظ کرد و به طور مؤثری از مانیتور کودک به عنوان یک دستگاه مرکزی استفاده کرد و تصویر نهایی خنک کننده گهواره خود تاب را ایجاد کرد.
جوزا با ترکیب درد یک همسر مرده با عنصر ماوراء طبیعی، وحشت لایهای عاطفی ایجاد کرده است، اما خطر کمی فراتر رفتن از محدودیت کلمه را در ساختار جوی خود دارد.
برنده شدن: ChatGPT برنده می شود برای دستیابی به تعادل دقیقتر بین سرعت، تعهد به تعداد کلمات، و ترساندن نهایی مؤثرتر که به طور کامل از محدودیت قالب 100 کلمه استفاده میکند. فکر میکردم خیلی عجیب است که هر دو دستیار هوش مصنوعی داستانی درباره یک مانیتور کودک انتخاب کردند.
7. شکاف اطلاعاتی در زمان واقعی
سریع: 3 مدل برتر هوش مصنوعی منتشر شده در 3 ماه گذشته کدامند و چگونه مقایسه می شوند؟
ChatGPT این یک تفکیک خواننده پسند با سلسلهمراتب بصری واضح، طبقهبندی واضحتر و نتیجهگیری عملی ارائه کرد که به جای اعلام برنده واحد، بر ترکیب مدلها تأکید داشت.
جوزا او در پاسخ خود با یک جدول قدرتمند «مقایسه در یک نگاه» معتبر بود، و به طور متفکرانه جدول زمانی انتشار هر مدل و نقاط قوت کلیدی را برای موارد استفاده حرفهای توضیح داد.
برنده شدن: دوقلوها برنده می شوند در حالی که یک مقایسه قدرتمند و فوری قابل اسکن ارائه می دهد، رویکرد ظریف تری را ارائه می دهد که در آن کاربران قدرتمند اکنون مدل ها را بر اساس وظیفه ترکیب می کنند. این یک تمایز مهم است که وضعیت فعلی چشم انداز هوش مصنوعی را بهتر منعکس می کند.
برنده کلی: ChatGPT
پس از هفت تست در دنیای واقعی، امتیاز نزدیک است. ChatGPT برد کلی را می گیرد.
مدل OpenAI به طور مداوم از نظر وضوح، ساختار و سرعت برنده است. از تصحیح کد و حل یک مشکل گرفته تا تصمیم گیری، هر روز به عنوان یک ابزار قابل اعتمادتر ظاهر شده است.
Google Gemini با توانایی قدرتمند خود برای کشف پیچیدگی، عمق و زمینه اضافی به این دور پیوست که می تواند در زمینه هایی مانند تحقیق، نوشتن و عدم اطمینان بسیار ارزشمند باشد.
هر مدل به طرق مختلف متمایز بود و هر دو عملکرد قوی داشتند. در حالی که هر دستیار هوش مصنوعی همه چیز را به طور کامل انجام نمی دهد، واضح است که دانستن اینکه کدام ابزار بسته به وظیفه کار بهتری انجام می دهد می تواند به بهبود گردش کار کمک کند. کسانی که زودتر این تغییر را درک می کنند، کسانی هستند که از هر مدل بیشترین سود را خواهند برد.
با یک برد نزدیک اما محکم، ChatGPT به دور بعدی می رود.
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.
















