7 من Chatgpt O3-Mini vs Deepseek R1 و Qwen 2.5 را با برنده درخواست-Here آزمایش کردم

مدل R1 Deepseek با سرعت ، قابلیت استدلال و دسترسی رایگان کاربران را به دست آورده است. این مدل در زمینه های مهم مختلف مانند استنباط منطقی و استدلال کامل است ، که باعث می شود در درک و پردازش اطلاعات پیچیده استادانه باشد.
Deepseek ثابت کرده است که به ویژه در استدلال ریاضی و وظایف برنامه نویسی قوی است ، به طور مؤثر مشکلات پیچیده را حل کرده و قطعه های کد را ایجاد می کند. با داشتن توانایی های چند زبانه برتر و راندمان استنتاج بالا ، این مدل تطبیق پذیری را در طیف گسترده ای از برنامه ها نشان داده است.
مدل O3-Mini Openai ، که در حال حاضر در لایه Chatgpt رایگان قرار دارد ، یک مدل هوش مصنوعی جمع و جور اما قدرتمند با استدلال پیشرفته ، کفایت کدگذاری و حل مسئله ریاضی ، 96.7 ٪ از آزمون ریاضیات دعوت آمریکایی است. ) ، O1.
هنوز هم ، Qwen 2.5 Alibaba راه اندازی ، هر دو Deepseek و Chatgpt بهترین رقیب بود. علاوه بر این ، برای کاربران رایگان و همچنین کفایت کدگذاری ، درک چند زبانه ، استدلال ریاضی و کارآیی و پردازش محتوای گسترده با پردازش محتوای گسترده ، این چت باب ثابت می کند که در زمینه رقابتی هوش مصنوعی خود به خودی خود دارد.
بنابراین چگونه این چکمه های چت مقایسه می شوند؟ من آنها را در یک سری از همان خواسته ها قرار دادم تا همه چیز را از استدلال پیشرفته و کفایت کدگذاری تا قابلیت حل مسئله آزمایش کنند. کسانی که با این مدل های لایه ای رایگان ، از جمله برنده عمومی روبرو می شوند.
1. مبارزات برنامه نویسی
سریع: “یک Python را مختصر بنویسید که یک سیستم بانکی اساسی را با عملکرد کفپوش ، عقب نشینی و کنترل تعادل شبیه سازی می کند.”
o3-mini با استفاده از یک رویکرد مبتنی بر کلاس ، یک برنامه جامد ارائه می داد و حاوی پیام های خطای معنی دار بود ، در حالی که اجازه می دهد سپرده ها و عملیات برداشت به درستی انجام شود. همچنین توضیح روشنی در مورد هر روش و عملکرد ارائه می دهد.
Qwen 2.5 این یک ریخته گری خوب در مورد چگونگی اسکریپت ، که شامل تعریف کلاس ، روش های سپرده گذاری/برداشت ، پردازش خطا و تجربه کاربر است ، ارائه می دهد. این شامل بلوک های آزمایشی برای پردازش ورودی های نامعتبر است که باعث می شود آن را قوی تر کند. این فیلمنامه درک مبتدیان تازه توسعه یافته ، خوب توسعه یافته را تسهیل می کند.
در اعماق این سناریو را پیکربندی و کارآمد نگه داشته و با اضافه کردن یک لمس شخصی ، نام شخص را برای حساب اضافه می کند. با این حال ، فاقد تأیید ورود است (به عنوان مثال ، هیچ زمان آزمایشی برای ورودی های غیرقانونی وجود ندارد) و توضیحات واضح است ، اما Qwen به اندازه 2.5 تفصیل نیست.
برنده: Qwen 2.5 با پردازش خطای قوی ، توضیحات مفصل و تجربه کاربر بصری ، برنده می شود تا یک اسکریپت تمیز و سازنده را ارائه دهد. با یک کاربرد خوب ، O3-Mini ، که با پردازش خطا کمی جامع تر بود ، دوم دوم بود.
5. شواهد ریاضی
سریع: “قضیه فیثاغوری را با استفاده از یک رویکرد هندسی اثبات کنید.”
o3-mini او توضیحی در مورد رویکرد ساختار یافته و ساختار یافته ، گام به گام و تسهیل کننده درک ارائه داد. توضیحات نه در جزئیات لازم بیش از حد مفصل است و نه از دست رفته است.
QWEN 2.5 با استفاده از فریم های بزرگ و مثلث های سازماندهی مجدد با شکستن مراحل به وضوح و روش ، رویکرد مشابهی با O3-Mini ارائه داد. توضیحات حاوی مشکلات قالب بندی است و برخی از بخش هایی مانند نمودار ASCII کمی نامشخص یا نادرست تراز هستند که تجسم را دشوار می کند.
در اعماق او شواهد درست را به دنبال یک ساختار منطقی تهیه کرد. با این وجود ، در توضیح اینکه چرا این رویکرد کار می کند ، فاقد عمق است.
برنده: O3-Mini این بهترین ترکیب از وضوح ، جزئیات و جریان منطقی است. Qwen 2.5 یک واکنش محکم است اما با مشکلات قالب بندی و تجسم در رده دوم قرار دارد.
3 توضیحات علمی
سریع: “فرایند فتوسنتز را با جزئیات توضیح دهید.”
o3-mini با وخامت خالص هر مرحله ، توضیحات مفصلی در مورد واکنشهای وابسته به نور و مستقل از نور را فعال می کند. نظارت بر گام به گام از گرفتن نور به تبدیل انرژی به گلوکز آسان است. این فرآیندهای پیچیده را به بخش های قابل هضم تقسیم می کند.
Qwen 2.5 تمام مفاهیم اساسی در فتوسنتز تجزیه و تحلیل مرحله خوبی از واکنش های وابسته به نور و چرخه کالوین را ارائه می دهند. با این حال ، chatbot اهمیت کمتری به اهمیت کلمه واقعی مانند تغییرات آب و هوا ، ایمنی مواد غذایی و پاسخ می دهد.
در اعماق این شامل عواملی است که هم فتوسنتز را تحت تأثیر قرار می دهد و بر فتوسنتز تأثیر می گذارد (به عنوان مثال شدت نور ، سطح CO₂ ، حضور در آب) ، اما در مقایسه با واکنش O3-Mini از عمق فنی برخوردار نیست.
برنده شدن: بهترین عمق ، وضوح ، سازماندهی و دقت تعادل O3-Mini. Deepseek برای اظهارات محکم خود یک ثانیه دوم بود ، اما او فاقد جزئیات نازک تر بود.
4. تحلیل تاریخی
سریع: “علل و تأثیرات انقلاب فرانسه را تجزیه و تحلیل کنید.”
o3-mini این امر به وضوح علل و اثرات را به بخش های مختلف تقسیم می کند و یک تجزیه و تحلیل جامع و خوب ساختار یافته را تهیه می کند که توضیحات عمیق برای هر عامل به جای لیست ارائه می دهد.
Qwen 2.5 ناپلئون و انقلاب های متعاقب آن ، از جمله یک توضیح قوی و واکنش خوب سازمان یافته. با این حال ، نتایج اقتصادی می تواند با جزئیات بیشتری بررسی شود.
در اعماق کلید جامع ، از جمله نابرابری اجتماعی ، مبارزات اقتصادی و ایده های روشنگری ، اما عدم عمق تحلیلی و ارجاع به منابع.
برنده شدن: o3-mini این بهترین عمق ، وضوح ، سازماندهی و تعادل تجزیه و تحلیل تاریخی را به دست می آورد. Deepseek برای یک پاسخ محکم در رده دوم قرار دارد ، اما کمی دقیق تر است.
5. انتقاد ادبی
سریع: “تجزیه و تحلیل انتقادی از مضامین جنون و انتقام شکسپیر ارائه دهید.”
o3-mini او در مورد مضامین جنون و انتقام جویی و چگونگی درهم آمیختن آنها به جای برخورد با آنها به عنوان مسائل جداگانه تحقیق کرد. وی در مورد مبارزات روانشناختی هملت تحقیق کرد ، بررسی کرد که آیا جنون وی یک کاذب یا واقعی است ، که یک بحث اصلی در مورد بورس تحصیلی شکسپیر است.
Qwen 2.5 وی بحث و گفتگو بسیار مفصلی در مورد جنون دروغین و واقعی ارائه داد. با این وجود ، در توضیح انتقام کمی مازاد وجود داشت تا اینکه احساس توضیحی بیشتری نسبت به تجزیه و تحلیل داشته باشند.
Deepseek در رویکردهای انتقام جویی ، مقایسه کاملی بین هملت ، لائرتس و فورتینبراس ارائه داد ، اما پاسخ به عنوان یک خلاصه ساختار یافته چاه احساس می شد و نه یک تحلیل عمیق. ساختار مانند لیست باعث شده است که کمتر مانند یک استدلال انتقادی روان احساس شود.
برنده: O3-Mini به بهترین مخلوط برای ساختار ، ساختار و اتصال موضوعی باز می گردد. Deepseek برای پاسخ قوی دوم بود ، اما خلاصه تر و کمتر در هم تنیده.
6. بحث فلسفی
سریع: “در مورد مفهوم سودگرایی و تأثیرات آن بر اخلاق مدرن بحث کنید.”
o3-mini او به وضوح اصول اساسی خود را بیان کرد فایده گرایی (نتیجه گیری ، حساب هیدونیستی ، بی طرفی) و شیوه های مدرن (سیاست گذاری ، سلامت ، اخلاق محیط زیست) با جزئیات بیشتر از سایر پاسخ ها مورد بحث قرار گرفت.
Qwen 2.5 این یک شکست محکم در برابر حاکمیت حاکمیت حاکمیت و اخلاق تجاری ، فناوری ، هوش مصنوعی و اخلاق پزشکی ایجاد کرد. با این حال ، توضیحات اضافی و بیش از حد در تعریف مفاهیم سودمند وجود داشت.
در اعماق این اصول اساسی را به خوبی در بر می گیرد و شامل زمینه تاریخی است ، اما نتوانسته است به اندازه دو عامل دیگر انتقاد را کشف کند. علاوه بر این ، او بین پاسخ ، تئوری و مشکلات دنیای واقعی ارتباط موضوعی قوی نداشت.
برنده: O3-Mini وی با ارتباط با وضوح و مشکلات اخلاقی مدرن ، در پاسخ عمیق بهترین نتیجه را داد. Qwen 2.5 برای توضیح خوب دوم است ، اما ساختار و نتیجه کمی ضعیف تر است.
7. برنامه ریزی شهری
سریع: “یک استراتژی یکپارچه برای بهینه سازی حمل و نقل شهری به سرعت در یک مگازیت به سرعت در حال رشد طراحی کنید. برنامه شما باید در مورد جنبه های زیر بحث کند.”
o3-mini این جریان جریان منطقی قوی را با تمام جنبه های مهم بهینه سازی حمل و نقل شهری با منابع هوشمند و مراحل کاربرد خالص پوشش می دهد.
Qwen 2.5 این یک پاسخ خوب ساختار یافته ارائه می دهد و مهمترین مؤلفه ها را با استفاده خوب از یک تصمیم با محوریت داده پوشش می دهد. با این حال ، او یک مطالعه موردی جهانی قوی نداشت و بر مراحل اجرای تأکید نکرد.
در اعماق برنامه های الکتریکی حمل و نقل در عمق در حمل و نقل خود بر روی امنیت و ایمنی جنسیتی در ترانزیت متمرکز شده اند. با این حال ، Chatbot در برخی مناطق ، حاکمیت و تمرکز آینده طولانی مدت بر آینده ناشی از آینده بسیار گسترده بود. علاوه بر این ، یک چارچوب اجرایی سیاست تعریف شده خوب از پاسخ از دست رفته است.
برنده شدن: O3-Mini برای نقشه راه اجرایی ، نوآوری ، عمق و رئالیسم برنده می شود. Qwen 2.5 برای پاسخ قوی اما کمی پیکربندی شده دوم بود.
برنده عمومی: O3-Mini
O3-Mini Chatgpt به عنوان متنوع ترین و مداوم ترین چت بابات با کارایی بالا روی صورتش ظاهر شد. برنامه نویسی ، ریاضیات ، تجزیه و تحلیل تاریخی ، نقد ادبی ، مباحث فلسفی و حل مسئله ، از جمله چالش های مختلف-O3-Mini بارها و بارها عمق ، وضوح ، سازماندهی و کاربرد واقعی دنیای واقعی را نشان داد.
03 MINI در متعادل کردن جزئیات با خوانایی کامل شده است ، و واکنش های ساختاری و درک خوبی را ارائه داده است که درک نظری را با استنتاج های عملی می آمیزد.
اگرچه Deepseek R1 و QWEN 2.5 جنبه های قوی دارند ، اما Deepseek معمولاً پیکربندی می شود ، اما برخی از پاسخ های سطح سطح و QWEN 2.5 مهارت های برنامه نویسی قوی را نشان می دهند و تجزیه و تحلیل های اخلاقی جامد-در همه مناطق در همه مناطق آزمایش شده نمی توانند با همه کاره O3- مطابقت داشته باشند. مینی
به طور خاص ، QWEN 2.5 O3-Mini را در مبارزات برنامه نویسی به دلیل ویژگی های اسکریپت و پردازش خطا به خوبی افزایش داد ، و Deepseek بار دوم را در رتبه دوم قرار داد که یک پاسخ جامع تر اما کمتر ظریف تر ارائه داد.
O3-Mini ، که دائماً در پنج از هفت چالش ذکر شده است ، ثابت شد که متعادل ترین مدل هوش مصنوعی برای کاربرانی است که به دنبال پاسخ های متفکرانه ، خوب و منطقی و منطقی هستند. در حالی که هر سه مدل در کارهای مختلف کمک ارزشمندی ارائه می دهند ، O3-Mini در حال حاضر جلا ترین و قابل اعتماد ترین تجربه را در بین این گزینه های چت بوت در سطح آزاد ارائه می دهد.