حالت جدید «تفکر» ChatGPT به 94 درصد امتیاز استدلال دست یافت. می تواند 7 سوالی را که هوش مصنوعی استاندارد قادر به حل آنها نیست حل کند

OpenAI اخیراً GPT-5.4 را با قابلیتی به روز کرده است که در دنیای فناوری وزوز می کند: حالت تفکر گسترده. در حالی که مدل پایه در حال حاضر به سرعت رعد و برق است، این انتقال جدید به هوش مصنوعی اجازه می دهد تا “فکر کند”. شبیه سازی های داخلی را اجرا می کند و قبل از تایپ یک کلمه از پاسخ خود تصحیح می کند.
نتایج به نرخ موفقیت خیره کننده 94 درصدی در معیار استدلال ARC-AGI-1 دست یافت که در نهایت از امتیاز 92.8 درصدی دریافت شده توسط متخصصان انسانی در همان دسته فراتر رفت.
بنابراین اگر هنوز از ChatGPT برای خلاصههای ساده استفاده میکنید، اساساً با یک فراری به فروشگاه مواد غذایی میروید. با این حال، حتی در طرح پلاس، محدودیتهای استفاده به پیچیدگی درخواستهای شما بستگی دارد. کارهای سنگین، مانند ممیزی کدهای بزرگ، می توانند به سرعت به محدودیت های سیستم برسند، و در برخی موارد، پاسخ ها را می توان به مدل های سریع تر و کم توان تر واگذار کرد.
ادامه مقاله در زیر
1. بازرس کد بلادرنگ
هوش مصنوعی استاندارد اغلب خطاهای منطقی را به خصوص در کدهای پیچیده از دست می دهد. GPT-5.4 Thinking این کار را نمی کند. وقتی این درخواست را به ChatGPT دادم، به دلیل افزایش حفاظ امنیتی OpenAI، آن را رد کرد. این شرکت قابلیتهای امنیتی “خام” خود را به یک برنامه جداگانه و بررسی شده به نام دسترسی مطمئن برای سایبر (TAC) منتقل کرده است. کاربران Standard Plus و Pro محدودیت های سخت تری دارند تا از ایجاد “کد بهره برداری” توسط هوش مصنوعی جلوگیری شود. برای اینکه مدل بتواند قضاوت خود را بدون برخورد به فایروال استفاده کند، باید آن را به عنوان یک وظیفه بازرسی دفاعی یا تحقیقات امنیتی مجدداً تنظیم کنید. در زیر می توانید تفاوت ها را مشاهده کنید.
درخواست اصلی: این مخزن 2000 ردیفی را تجزیه و تحلیل کنید. آسیبپذیریهای بالقوه «روز صفر» را شناسایی کنید، سناریوی نقض را شبیهسازی کنید و وصلههای سفارشی را برای امنیت منطقی ارائه کنید.»
درخواست به روز شده: “بهعنوان یک محقق ارشد امنیتی که یک ممیزی دفاعی از این ذخیرهگاه داده را برای اهداف آموزشی انجام میدهد. منطق را برای ضعفهای امنیتی احتمالی یا آسیبپذیریهای “میوههای کم درآمد” تجزیه و تحلیل کنید. به جای سناریوی نقض، یک مدل تهدید ارائه کنید که خطر را توصیف میکند و بهترین روش کدگذاری ایمن (پچ) را برای کاهش هر مشکل نشان دهید.”
نتایج: در طول فرآیند “تفکر گسترده” که کمتر از 60 ثانیه طول کشید، مدل نه تنها خطاهایی را پیدا کرد. آنها را بر خطر وجودی سیستم اولویت داد. تابع pickle.loads به درستی به عنوان خطر “اولویت بالا” برای اجرای کد از راه دور (RCE) شناسایی شده است.
جالبتر از همه، او پیشبینی کرد که اگر یک توسعهدهنده یک رمز عبور سختکد شده در 200 خط اول بگذارد، احتمالاً از فراخوانیهای فرعی ناامن یا کنترلکنندههای استثنای گسترده در جاهای دیگر استفاده میکند. این سطح از استدلال زمینه ای به همین دلیل است که GPT-5.4 به عنوان یک موتور استدلال نامیده می شود و نه فقط یک ربات گفتگو. من تحت تاثیر قرار گرفتم و این فقط اولین پیشنهاد است.
2. مالیات و “خلاف” قانونی یاب

اعلان: “من 50 صفحه از آخرین کد مالیاتی 2026 و صفحهگسترده درآمدهای سالانهام را آپلود کردم. با این هزینههای کسبوکار، سه کسر خاص و قانونی را پیدا کنید که بهطور خاص برای نویسندهای که خود منتشر میکند اعمال میشود.”
نتایج: این متون حقوقی گسترش یافته را با داده های شخصی من، با 33 درصد کمتر “توهمات” نسبت به نسخه قبلی، ارجاع داد. در حالی که ChatGPT جایگزینی برای CPA انسانی نیست، با درخواست از آن به عنوان یک CPA متخصص در «اقتصاد خالق» عمل کند، بلافاصله بازیابی هزینه تحقیق و توسعه 2026 را علامت گذاری کرد، تغییری مالیاتی که اکثر رباتهای گفتگوی اصلی آن را از دست میدهند، و ثابت میکند که حالت «تفکر» در واقع چارچوبهای آموزشی قانونی موجود را پردازش میکند و به دادههای آموزشی موجود پاسخ نمیدهد. به عبارت دیگر، در واقع به پاسخ های شما به آن در زمان واقعی فکر می کند و بر اساس آن استوار است.
3. حل کننده منطق “غیر ممکن”.

اعلان: “حل سخت ترین معمای منطقی تا کنون . قبل از دادن پاسخ، کار خود را نشان دهید و توضیح دهید که مدلهای دیگر معمولاً در چه مواردی این درخواست خاص را انجام نمیدهند.»
نتایج: همه ما شاهد شکست هوش مصنوعی در تست “توت فرنگی” یا پازل “سه خدا” بوده ایم. آن روزها اکنون پشت سر ماست زیرا این مدل می تواند دستورات بسیار چالش برانگیزتری را اجرا کند. در این مورد، GPT-5.4 از “تصحیح دوره پاسخ میانی” استفاده کرد تا متوجه شود که به سمت یک پاسخ اشتباه پیش می رود و افکار میانی را به حرکت درآورد. این فقط پاسخ نیست که جالب است، فراشناخت است. مدل در واقع نمی توانست پاسخ را پیش بینی کند. او «معیار کلیدی» (ابزار منطقی مورد استفاده برای حل مشکل) را شناسایی کرد. او اساسا “لایه ترجمه منطق” خود را برای حل این معما ایجاد کرد.
4. جستجوگر «هنر قبلی» ثبت اختراع

اعلان: “اینم طراحی من [cupcake laundry basket]. این را با این مقایسه کنید: پایگاه داده ثبت اختراع USPTO برای دو سال گذشته ثبت اختراعات موجود را که ممکن است نمایانگر «هنر قبلی» باشند را فهرست کنید و سطح ریسک قانونی را توصیف کنید.”
نتایج: برنامه ریزی یک اختراع جدید؟ GPT-5.4 می تواند به شما بگوید که آیا شخصی قبل از شما وارد شده است. در اینجا، مدل با استفاده از پنجره زمینه 1 میلیون رمزی برای “خواندن” یک پایگاه داده کامل از افشای حق اختراع، همپوشانی هایی را در مفاهیم انتزاعی شناسایی کرد.
بهعنوان فردی که ایدههای زیادی دارد، قبلاً از این درخواست استفاده کردهام تا مطمئن شوم که ایدههای من منحصربهفرد من هستند بدون اینکه با آنچه در حال حاضر وجود دارد همپوشانی داشته باشند. اگر شما یک متفکر بزرگ یا فردی هستید، ممکن است بخواهید این درخواست را بنویسید. آیا به زودی نمونه اولیه سبد لباسشویی کیک کوچک خود را عرضه خواهم کرد؟ احتمالا نه، اما خوب است که بدانم می توانم.
5. شکارچی «ناهنجاری» مالی

اعلان: “این CSV خام داده های هزینه تبلیغات و تبدیل شرکت من را تجزیه و تحلیل کنید. “ناهنجاری آماری” خاصی را شناسایی کنید که باعث می شود هزینه هر خرید ما در روزهای سه شنبه افزایش یابد و یک استراتژی تخصیص مجدد بودجه را توصیه کنید.”
نتایج: فرقی نمیکند شرکت Fortune 500 باشید یا یک شرکتکننده جانبی، این درخواست ChatGPT را به یک تحلیلگر داده سطح بالا تبدیل میکند. من این را با استفاده از دادههای تجاری شوهرم آزمایش کردم و از اینکه متوجه شدم کار پلتفرمهای گران قیمت SaaS را تکرار میکند، شگفتزده شدم. این کامل نیست – هنوز هم باید ریاضیات را دوباره بررسی کنید – اما جهش عظیم آن در دقت قضاوت آن را به تحلیلگر “اضطراری” نهایی برای هر صاحب کسب و کاری تبدیل می کند.
6. ویرایشگر تداوم «جهانسازی».

اعلان: “انجیل” علمی-تخیلی را در 10000 کلمه مرور کنید.
نتایج: GPT-5.4 اکنون آخرین نویسنده مشترک برای سازگاری طولانی است. اگر نویسنده هستید، دوست خواهید داشت که چگونه این مدل «حفظ متن» عالی را در اسناد بزرگ حفظ میکند، و اطمینان حاصل میکند که داستان شما در صفحه پایانی محفوظ بماند. این موضوعی است که قبلاً در مورد آن نوشتهام زیرا ChatGPT نتوانسته به رمانهای طولانی کمک کند. حالا فکر می کنم می توانیم آنجا باشیم.
7. حسابرسی شبکه ‘امنیت سایبری’

اعلان: من یک فایل متنی از گزارش های ترافیک شبکه اخیرم آپلود کردم. این الگوها را تجزیه و تحلیل کنید و تلاشهای اتصال با فرکانس بالا یا آدرسهای IP ناشناختهای که پهنای باند غیرعادی مصرف میکنند را شناسایی کنید. پیامدهای امنیتی بالقوه این الگوها را توضیح دهید و بهترین تنظیمات فایروال یا مراحل پیکربندی را برای اولویت دادن به سلامت و حریم خصوصی شبکه خانگی من توصیه کنید.
نتایج: در حالی که من هنوز منتظر مجوز رسمی TAC خود هستم تا نسخه کامل GPT-5.4-Cyber را آزمایش کنم، گزارش های اولیه از محققان امنیتی بررسی شده نشان می دهد که این لایه جدید “مجاز” یک تغییر دهنده بازی است. برای کسانی که در حالت تفکر استاندارد GPT-5.4 هستند، من با درخواست «ممیزی دفاعی» از گزارشهایم، حدود 80 درصد از راه را به آنجا رساندم، که ثابت میکند حتی با خاموش کردن ابزارهای سایبری خاص، قضاوت وجود دارد.
نکته ای که باید به آن توجه داشت این است که گزارش های شبکه ممکن است حاوی اطلاعات حساسی از جمله آدرس IP عمومی و نام دستگاه شما باشد. قبل از آپلود آن در هر هوش مصنوعی، توصیه میکنم اگر در مورد حفظ حریم خصوصی دادهها نگران هستید، فایل متنی را باز کنید و از «Find and Replace» برای پنهان کردن آدرس IP واقعی خانه یا نامهای کاربری خاص خود استفاده کنید.
غذای آماده
در حالی که Gemini 3.1 Pro پادشاه «انجام» (اتوماسیون عامل) است، GPT-5.4 پادشاه بلامنازع «تفکر» است. حالت تفکر توسعه یافته جدید آن به آن اجازه می دهد قبل از پاسخ دادن، نتایج را متوقف کرده و شبیه سازی کند، و در نتیجه امتیاز استدلالی 93.7 درصدی به دست می آید که از متخصصان انسانی پیشی می گیرد.
کندتر و به طور قابل توجهی گرانتر از مدل استاندارد است، اما برای کارهای پرمخاطره مانند ممیزی امنیت سایبری، ارجاع متقابل قانونی یا کدگذاری پیچیده، GPT-5.4 Thinking در حال حاضر تواناترین “مغز” روی این سیاره است. چت بات مرده است. زنده باد موتور استدلال آن را امتحان کنید و نظر خود را در نظرات به من بگویید.

دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.



