من Claude Opus 4.7 جدید Anthropic را آزمایش کردهام – و این اولین هوش مصنوعی است که واقعاً از طریق وظایف “استدلال” میکند.

Anthropic به تازگی Claude Opus 4.7 را منتشر کرده است و می توانم بگویم که تفاوتی که بلافاصله پس از آزمایش متوجه شدم، نحوه گوش دادن و پاسخ دادن به سوالات من توسط مدل بود. من آخرین بهروزرسانی را از طریق مجموعهای از وظایف طراحیشده برای سرعت بخشیدن به آن انجام دادم: کدنویسی مستقل، تحقیقات خود تأیید و حتی برخی توصیههای طراحی خانه.
من مدلی را پیدا کردم که از یک ربات چت به یک معمار دیجیتال قابل اعتماد تبدیل شده است. اگر عادت دارید که هوش مصنوعی با درخواستهایتان «آزادیهای خلاقانه» بگیرد، Opus 4.7 یک زنگ خطر بزرگ است.
در اینجا هفت نکته وجود دارد که نشان می دهد مدل در حال حاضر چه کاری می تواند انجام دهد:
1. مهندسی خودمختار
سریع: “برای من یک برنامه وب ردیابی کار کامل با کشیدن و رها کردن ستونها، فیلترها و فضای ذخیرهسازی محلی برای من بسازید. سوالات روشنکننده از من نپرسید، فقط برای من ارسال کنید.”
در عرض چند دقیقه، Claude Opus 4.7 یک صفحه وظایف HTML تک فایل با کشیدن و رها کردن برای هر دو کار (بین و درون ستونها) و ترتیب مجدد ستونها و همچنین فیلتر بر اساس اولویت، تاریخ سررسید، برچسبها و جستجوی زنده ایجاد کرد. همه چیز در localStorage باقی می ماند و برای انتقال داده ها صادرات/واردات/بازنشانی وجود دارد.
ادامه مقاله در زیر
مدل دقیقاً همان کاری را انجام داد که من میخواستم یک محیط لینوکس سندباکس ایجاد کنم که بتواند فایلها را بنویسد و سپس آنها را از طریق دایرکتوری خروجی با من به اشتراک بگذارد. بنابراین من به جای فقط یک بلوک کد، یک فایل html قابل دانلود در چت دریافت کردم.
2. خود اعتبار سنجی

سریع: تحقیق کنید که کدام شاسیبلندهای الکتریکی بهترین برد واقعی را در هوای سرد دارند، سپس پاسخ خود را بررسی کنید و قبل از دادن آن به من، هر چیزی را که در مورد آن مطمئن نیستید علامت بزنید.
مدل درخواست دو قسمتی من را جدی گرفت و آنچه را که می دانست از آنچه حدس می زد جدا کرد و سپس پاسخ را حول آن بخش ساخت. او یک جستجوی اینترنتی برای اطلاعات به روز انجام داد و سپس کل مطالعه Repeat را مستقیماً آورد. پس از آن، پاسخ را حول یک رتبه بندی معتبر سازماندهی کنید (با استفاده از فهرست رتبه بندی واقعی Recurrent و یافته های خاص). در نهایت، او خود را بررسی کرد و عدم قطعیت ها را به دسته بندی کرد.
3. دید با کیفیت بالا

سریع: “اینجا نمایی از آشپزخانه من است. هر چیزی که در مورد چیدمان، نورپردازی، و آنچه روی پیشخوان وجود دارد را به من بگویید و سپس سه تغییر را پیشنهاد دهید.”
هوش مصنوعی چیدمان، نور، و محتوای سطح گوشه صبحانه من را بر اساس آنچه در عکس ظاهر می شود شناسایی کرد و سپس سه پیشنهاد برای تغییرات ارائه کرد. پیشنهادها بر افزودن نور لایه لایه، چیدمان مجدد بالش و تغییر شکل قسمت مرکزی میز متمرکز بود.
او سپس با پیشنهاد عمیقتر رفتن یا توصیه محصولات خاص بسته شد. مطمئن نیستم که بتوانم این تغییرات را اجرا کنم یا نه، اما جالب بود ببینم کلود چه خواهد کرد.
4. “لذت” خلاقانه

سریع: برای من یک نامه پوششی یک صفحه ای برای نقش مدیر محصول ارشد در یک استارت آپ فناوری آب و هوا برای من بنویسید. من می خواهم به نظر برسد که یک انسان آن را نوشته است.”
این یک آزمون واقعا جالب بود، به خصوص که من واقعاً برای کار درخواست نمی کردم. به کلود گفتم که درباره من “چیزی بسازد”، اما چندین بار رد شد (چیزی که ChatGPT به ندرت انجام می دهد). او جزئیات واقعی را می خواست. پس از ارائه جزئیات، او آن را با استفاده از کلمات واقعی من در مورد آب و هوا و فناوری که با هم کار می کنند، تهیه کرد. او متغیرهای پرانتزی را برای کسب درآمد حرفهای حذف کرد و یک پاراگراف دوستانه درباره کسبوکار تجاری به راهاندازی اضافه کرد تا طوری خوانده شود که گویی توسط انسان نوشته شده است. به طور جدی چشمگیر!
5. از مهندسی مستقل لذت ببرید

سریع: برنامهای را برای شرکت پیتزای سرد آماده من، «Crusted» طراحی کنید. آن را شبیه چیزی کنید که یک استودیوی طراحی واقعی ارائه میکند، نه یک الگوی عمومی SaaS.»
برای Crusted، ماکت یک ماکت برنامه سفارش تک صفحهای با زیباییشناسی ویرایشی/اغذیهفروشی ایجاد کرد. این برنامه دارای یک پالت کاغذ گرم، فونت های شیک، و نقاشی های پیتزا فقط با CSS است که بر اساس طعم متفاوت است. پس از اتمام مدل، او به من پیشنهاد داد که دفعه بعد این نوع پروژه را در کلود کوورک انجام دهم.
6. بینش و اعتبار سنجی

سریع: این مقاله تحقیقاتی پیچیده PDF را بردارید و یافتههای کلیدی را استخراج کنید، اعداد را در نمودارها با متن مقایسه کنید و ناسازگاریها را علامتگذاری کنید.
من در بارگذاری اولیه این درخواست عمداً اشتباه کردم تا ببینم آیا کلود آن را تشخیص می دهد یا خیر. البته او بلافاصله این کار را کرد و حتی گفت: “من نمی توانم بیشتر از این ادامه دهم. این سند اشتباهی به نظر می رسد.” وقتی یک مقاله سفید در مورد بی خوابی و سلامت روان آپلود کردم، ادعاهای آماری اصلی و مشکلات موجود در متن را حذف کرد و حتی گفت که تصاویر اشتباه هستند/به اندازه کافی با متن مطابقت ندارند. وی در پایان خاطرنشان کرد: اطلاعات باید مورد بررسی قرار گیرد. این یک پیشنهاد خوب بود چون پی دی اف چندین ساله بود و یکی از فایل های کامپیوتر من بود.
7. تصمیم گیری

سریع: “من سعی می کنم بین سه پیشنهاد شغلی تصمیم بگیرم. سوالاتی را که واقعا مهم هستند از من بپرسید، سپس مشاوره واقعی خود را به من بدهید.”
این اعلان کاملاً فرضی است، اما میتوانم ببینم که این برای کسی که تصمیمگیری دشواری میگیرد مفید است. کلود بلافاصله سوالات چند گزینه ای می پرسد. می توان به این موارد پاسخ داد یا از آنها صرفنظر کرد (در آن زمان کلود سؤال جدیدی می پرسد). هر سوالی که به آن پاسخ دادم کلود را وادار کرد تا عمیقتر در فرآیند تصمیمگیری کند. برای سناریوهای چالش برانگیز زندگی، به نظر می رسد این می تواند نقطه شروع خوبی برای کمک به جمع آوری تمام جوانب مثبت و منفی باشد.
غذای آماده
پس از تست استرس این ادعاها، به این نتیجه رسیدیم که Opus 4.7 پیشرفته ترین هوش مصنوعی در حال حاضر در دسترس عموم است. از آستانه تبدیل شدن از یک ابزار واکنشی به یک همکار واقعی عبور کرده است.
واضح است که مقدار زیادی “فکر” در پشت خروجی آنها وجود دارد، و سطحی از تشخیص وجود دارد که نشان می دهد آیا آنها جزئیات شغل خیالی من را بازیابی می کنند یا اشتباهات را در یک PDF قدیمی تشخیص می دهند.
ما برای این نسخه «مالیات نمادین» بالاتری می پردازیم، اما با توجه به ویژگی استقلال و خوددرمانی، انجام آن آسان است. آیا تا به حال آن را امتحان کرده اید؟ نظر خود را در مورد این مدل جدید در نظرات به من بگویید.

دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.



