ChatGPT o1 مدل جدید توت فرنگی OpenAI است — 5 نکته برای امتحان
OpenAI مدل جدید o1 را معرفی کرده است که به احتمال زیاد دقیق تر است و پاسخ های بسیار دقیق تری را نسبت به مدل های قبلی ارائه می دهد، اگرچه ممکن است پاسخ به سوالات کمی بیشتر طول بکشد.
این مدل که قبلا به عنوان پروژه توت فرنگی یا Q* شناخته می شد، یک مدل استدلالی است که به جای ایجاد پاسخ برای هر توکن، با گرفتن یک اعلان و فکر کردن در مورد چگونگی حل آن گام به گام کار می کند.
در حالی که برای هر کاری مناسب نیست، در ریاضیات، کدنویسی و مسائلی که نیاز به تفکر و تجزیه و تحلیل طولانی دارند، عالی است. برای مثال، میتواند برگههای زمانی یک فروشگاه بزرگ را تجزیه و تحلیل کند و با پیمایش در دادهها، نظم کاری بهینه را طراحی کند.
ChatGPT o1 چیست؟
در اینجا o1، یکی از توانمندترین و سازگارترین مدلهای ما تاکنون است: https://t.co/yzZGNN8HvDo1 هنوز ناقص است، هنوز محدود است و پس از گذراندن زمان بیشتر با آن، چشمگیرتر از همیشه به نظر میرسد. pic.twitter.com/Qs1HoSDOz112 سپتامبر 2024
در حال حاضر مدل جدید در دو نسخه o1-preview و o1-mini ارائه می شود. تا حدودی گیج کننده، به نظر می رسد که o1-mini مدل قدرتمندتر است، اما پایگاه دانش کوچک تری دارد. گزارشها نشان میدهند که o1-preview بر روی معماری قدیمیتر از mini آموزش داده شده است، و o1 کامل آنقدر قدرتمند در نظر گرفته میشود که بدون حفاظتها و موانع امنیتی اضافی منتشر شود.
این مدل جدید بهویژه برای محققان و دانشجویان مفید خواهد بود، زیرا استعداد در سطح دکترا را در ریاضیات، ریاضیات و سایر موضوعات علوم، فناوری و مهندسی نشان میدهد. من یک سری دستورات طراحی کردم تا واقعاً محدودیتهای آن را آزمایش کنم، اما تنها با 30 پیام در هفته، باید راههایی برای به حداکثر رساندن هر یک پیدا میکردم. با این حال، OpenAI سقف نرخ را بازنشانی کرده است تا به کاربران پلاس و تیمز زمان بیشتری برای بازی با مدل بدهد. برای کاربران رایگان ChatGPT در دسترس نیست.
نکاتی برای شروع ChatGPT o1
با نوع جدیدی از مدل، رویکردهای جدیدی به ادعاها ارائه می شود. o1 یک پرس و جو را با کار و فکر کردن در مورد مشکل پردازش می کند تا زمانی که به یک راه حل برسد. بنابراین، بهترین استراتژی شما این است که تا حد امکان توصیفی باشید و تمام جنبه های آنچه را که می خواهید به دست آورید مشخص کنید و سپس به هوش مصنوعی اجازه دهید آن را مدیریت کند.
یکی از نکات مهم من این است که از یک مدل هوش مصنوعی دیگر مانند GPT-4o یا Sonnet 3.5 استفاده کنید تا ایده اصلی خود را به یک درخواست کاربردی برای o1 تبدیل کنید. این ممکن است شامل ترسیم هر مرحله ای باشد که مدل باید بردارد یا مشکل را به اجزای کوچکتر تقسیم کند.
علاوه بر بهبود عملکرد و دقت، o1 همچنین دارای یک پنجره خروجی به طور قابل توجهی بزرگتر است. این بدان معناست که در مقایسه با سایر مدلهای OpenAI، توانایی بیشتری در تولید یک گزارش کامل، نوشتن یک پایه کد کامل، یا ارائه پاسخ دقیق به یک پرس و جو پیچیده دارد.
1. برای مریخ قابل سکونت برنامه ریزی کنید
یکی از تاثیرگذارترین چیزهایی که وقتی o1 را امتحان کردم، پیدا کردم، توانایی او در تشریح پاسخ هایش و ارائه توضیحات مفصل در مورد چرایی پاسخ او به روشی بود که انجام داد. بهترین مثال در این مورد زمانی است که او پاسخ را بخش به قسمت تجزیه می کند و توضیح می دهد.
سریع: “برنامه ای جامع برای مریخ قابل سکونت تهیه کنید که به چالش های عمده ای مانند محافظت در برابر تشعشعات، ایجاد اتمسفر و مدیریت منابع پایدار بپردازد. جدول های زمانی تخمینی و پیشرفت های تکنولوژیکی بالقوه مورد نیاز را شامل شود.”
می توانید گزارش کامل Mars Terraform را در Google Docs مشاهده کنید.
2. شکل جدیدی از ریاضیات
تجربه بعدی من یک دستور ساده بود که یک مشکل پیچیده را در خود نگه می داشت. من یک شکل جدید از ریاضیات می خواستم که به اعداد نیازی نداشته باشد. اما هنوز باید کاربردی باشد و هوش مصنوعی باید توضیح دهد که چگونه میتوانیم از این ریاضیات جدید با کاربردهای بالقوه استفاده کنیم.
Prompt: “یک سیستم ریاضی جایگزین طراحی کنید که به سیستم عددی یا منطق فعلی ما متکی نباشد. اصول اولیه، عملیات و کاربردهای بالقوه آن را شرح دهید.”
جزئیات کامل مبحث “ریاضیات کیفی” را می توانید در گوگل داک مطالعه کنید.
3. سیستم جدید حکومت محلی
بعد از دو دستور نسبتاً ساده، من در تست سوم توضیحات بیشتری دریافت کردم. در اینجا از او خواستم که سیستم حکومتی جدیدی ارائه دهد که مشکلات مدل های فعلی ما را حل کند.
اعلان: «سیستم حکومتی جدیدی طراحی کنید که کاستیهای عمده سیستمهای دموکراتیک، خودکامه و دیگر موجود را برطرف کند. پیشنهاد شما باید در نظر داشته باشد:
فرآیندهای تصمیم گیری و ساختارهای قدرت
نمایندگی و مشارکت شهروندان
کنترل و تعادل برای جلوگیری از سوء استفاده از قدرت
مدل اقتصادی و تخصیص منابع
رویکرد به قانونگذاری و اجرای قانون
پرداختن به حقوق فردی و مسئولیت های جمعی
روشهای سازگاری با چالشها و بحرانهای بلندمدت
ادغام فناوری در مدیریت
مقیاس پذیری از سطوح محلی به جهانی
“نقاط قوت و ضعف بالقوه سیستم پیشنهادی خود را ارزیابی کنید و در مورد چگونگی پیاده سازی یا انتقال آن از اشکال موجود حکومت بحث کنید.”
می توانید توضیح کامل o1 در مورد “حکمیت مشارکتی پویا (DPG)” را در Google Doc مشاهده کنید.
4. یک بازی مدیریت منابع مبتنی بر مریخ
کد جایی است که o1 واقعا می درخشد. توانایی آن در تولید خروجی طولانی تر و ارائه پاسخ های منطقی و دقیق تر، آن را در تولید کد جامع تر می کند. چه آزمایشی بهتر از یک بازی مستعمره مریخ؟ در اینجا، باید قابلیت مدیریت منابع، یک رابط کاربری و یک عنصر گیم پلی سرگرم کننده را از یک دستور واحد ایجاد کند.
پیام درخواستی برای این بسیار طولانی و گسترده است، بنابراین برای اختصار، خط اول و خلاصهای را اضافه میکنم: «یک نسخه دوبعدی از Age of Empires را با استفاده از Python و Pygame در مریخ تنظیم کنید». سپس بیان میکند: «بازی باید شامل عناصر و ویژگیهای زیر باشد، از جمله اندازه پنجره بازی، طرحهای رنگی، ساختمانها و مکانیک بازی».
5. دیکشنری اموجی-انگلیسی
در نهایت، این ایده پس از تلاشهای فراوان برای ارائه مشکلات استدلالی به وجود آمد که مدلهای دیگر قادر به حل آنها نبودند – اما مدلهای دیگر به حل آنها ادامه دادند. من میخواستم با زبان جدیدی بیاید، اما کمی کلی به نظر میرسید، بنابراین از آن خواستم ایموجی را به یک زبان رسمی تبدیل کند.
Prompt: “فرض کنید یک سناریو که در آن گروهی از افراد فقط می توانند با استفاده از شکلک ها ارتباط برقرار کنند. این روشی است که آنها با یکدیگر ارتباط برقرار می کنند. با استفاده از تنها شکلک های معمولی موجود، یک فرهنگ لغت انگلیسی-Emoji ایجاد کنید که به فردی در آن گروه اجازه می دهد با فردی خارج از کشور ارتباط برقرار کند. گروهی که به زبان انگلیسی صحبت می کنند که ما امروز آن را می شناسیم.
میتوانید کل دیکشنری Emoji و راهنمای شکلکها را در Google Docs مشاهده کنید.
افکار نهایی
وقتی برای اولین بار از دو مدل مختلف o1 استفاده کردم متوجه شدم که بزرگترین مشکل پیدا کردن ایده هایی برای امتحان کردن است. اینها اساساً باعث می شوند که هوش مصنوعی دور شود، فکر کند و با پاسخ منطقی تری بازگردد. اما آنها به هیچ یک از ویژگی هایی که ما از هوش مصنوعی مدرن قدردانی می کنیم، مانند دسترسی به وب، حافظه و تجزیه و تحلیل داده ها، دسترسی ندارند.
او در کدنویسی، کارهای مفهومی طولانی مانند فرهنگ لغت ایموجی و مشکلاتی که نیاز به استدلال دارند، فوق العاده خوب است. یکی از نمونههایی که در X دیدم این بود که شخصی از آن برای ایجاد یک برنامه کاری برای کارمندان مختلف با تجزیه و تحلیل ساعات موجود و شیفتهای مورد نیاز استفاده میکرد.
هنگامی که OpenAI قابلیت آپلود فایل های داده را اضافه می کند، این یک تغییر بازی در تجارت خواهد بود و می تواند برای سازماندهی تعطیلات خانوادگی و مرتب کردن همه پیچیدگی های مختلف سفر، از جمله زمان بندی و برنامه، استفاده شود.
در حال حاضر، تنها با 30 پیام در هفته (من نیمی از آن را در یک روز استفاده کردم)، این یک انحراف سرگرم کننده است، اما برای اکثر موارد استفاده GPT-4o بیش از اندازه کافی است. در واقع، مینی GPT-04o برای استفاده اکثریت قریب به اتفاق مردم از هوش مصنوعی بسیار مناسب است و هوش اپل نیز به خوبی آن مدل است.
اطلاعات بیشتر از راهنمای تام
منبع: tomsguide