ChatGPT o1 مدل جدید توت فرنگی OpenAI است — 5 نکته برای امتحان

پروین میرمیران14 سپتامبر 2024آخرین به روز رسانی: 14 سپتامبر 2024

0 2,655 خواندن این مطلب 6 دقیقه زمان میبرد

OpenAI مدل جدید o1 را معرفی کرده است که به احتمال زیاد دقیق تر است و پاسخ های بسیار دقیق تری را نسبت به مدل های قبلی ارائه می دهد، اگرچه ممکن است پاسخ به سوالات کمی بیشتر طول بکشد.

این مدل که قبلا به عنوان پروژه توت فرنگی یا Q* شناخته می شد، یک مدل استدلالی است که به جای ایجاد پاسخ برای هر توکن، با گرفتن یک اعلان و فکر کردن در مورد چگونگی حل آن گام به گام کار می کند.

در حالی که برای هر کاری مناسب نیست، در ریاضیات، کدنویسی و مسائلی که نیاز به تفکر و تجزیه و تحلیل طولانی دارند، عالی است. برای مثال، می‌تواند برگه‌های زمانی یک فروشگاه بزرگ را تجزیه و تحلیل کند و با پیمایش در داده‌ها، نظم کاری بهینه را طراحی کند.

ChatGPT o1 چیست؟

در اینجا o1، یکی از توانمندترین و سازگارترین مدل‌های ما تاکنون است: https://t.co/yzZGNN8HvDo1 هنوز ناقص است، هنوز محدود است و پس از گذراندن زمان بیشتر با آن، چشمگیرتر از همیشه به نظر می‌رسد. pic.twitter.com/Qs1HoSDOz112 سپتامبر 2024

در حال حاضر مدل جدید در دو نسخه o1-preview و o1-mini ارائه می شود. تا حدودی گیج کننده، به نظر می رسد که o1-mini مدل قدرتمندتر است، اما پایگاه دانش کوچک تری دارد. گزارش‌ها نشان می‌دهند که o1-preview بر روی معماری قدیمی‌تر از mini آموزش داده شده است، و o1 کامل آنقدر قدرتمند در نظر گرفته می‌شود که بدون حفاظت‌ها و موانع امنیتی اضافی منتشر شود.

این مدل جدید به‌ویژه برای محققان و دانشجویان مفید خواهد بود، زیرا استعداد در سطح دکترا را در ریاضیات، ریاضیات و سایر موضوعات علوم، فناوری و مهندسی نشان می‌دهد. من یک سری دستورات طراحی کردم تا واقعاً محدودیت‌های آن را آزمایش کنم، اما تنها با 30 پیام در هفته، باید راه‌هایی برای به حداکثر رساندن هر یک پیدا می‌کردم. با این حال، OpenAI سقف نرخ را بازنشانی کرده است تا به کاربران پلاس و تیمز زمان بیشتری برای بازی با مدل بدهد. برای کاربران رایگان ChatGPT در دسترس نیست.

نکاتی برای شروع ChatGPT o1

با نوع جدیدی از مدل، رویکردهای جدیدی به ادعاها ارائه می شود. o1 یک پرس و جو را با کار و فکر کردن در مورد مشکل پردازش می کند تا زمانی که به یک راه حل برسد. بنابراین، بهترین استراتژی شما این است که تا حد امکان توصیفی باشید و تمام جنبه های آنچه را که می خواهید به دست آورید مشخص کنید و سپس به هوش مصنوعی اجازه دهید آن را مدیریت کند.

یکی از نکات مهم من این است که از یک مدل هوش مصنوعی دیگر مانند GPT-4o یا Sonnet 3.5 استفاده کنید تا ایده اصلی خود را به یک درخواست کاربردی برای o1 تبدیل کنید. این ممکن است شامل ترسیم هر مرحله ای باشد که مدل باید بردارد یا مشکل را به اجزای کوچکتر تقسیم کند.

علاوه بر بهبود عملکرد و دقت، o1 همچنین دارای یک پنجره خروجی به طور قابل توجهی بزرگتر است. این بدان معناست که در مقایسه با سایر مدل‌های OpenAI، توانایی بیشتری در تولید یک گزارش کامل، نوشتن یک پایه کد کامل، یا ارائه پاسخ دقیق به یک پرس و جو پیچیده دارد.

1. برای مریخ قابل سکونت برنامه ریزی کنید

(منبع تصویر: Midjourney/تصویر هوش مصنوعی آینده)

یکی از تاثیرگذارترین چیزهایی که وقتی o1 را امتحان کردم، پیدا کردم، توانایی او در تشریح پاسخ هایش و ارائه توضیحات مفصل در مورد چرایی پاسخ او به روشی بود که انجام داد. بهترین مثال در این مورد زمانی است که او پاسخ را بخش به قسمت تجزیه می کند و توضیح می دهد.

سریع: “برنامه ای جامع برای مریخ قابل سکونت تهیه کنید که به چالش های عمده ای مانند محافظت در برابر تشعشعات، ایجاد اتمسفر و مدیریت منابع پایدار بپردازد. جدول های زمانی تخمینی و پیشرفت های تکنولوژیکی بالقوه مورد نیاز را شامل شود.”

می توانید گزارش کامل Mars Terraform را در Google Docs مشاهده کنید.

2. شکل جدیدی از ریاضیات

ریاضیات/ایدئوگرام/شکل جدیدی از آینده

(منبع تصویر: Ideogram 2/Future Artificial Intelligence)

تجربه بعدی من یک دستور ساده بود که یک مشکل پیچیده را در خود نگه می داشت. من یک شکل جدید از ریاضیات می خواستم که به اعداد نیازی نداشته باشد. اما هنوز باید کاربردی باشد و هوش مصنوعی باید توضیح دهد که چگونه می‌توانیم از این ریاضیات جدید با کاربردهای بالقوه استفاده کنیم.

Prompt: “یک سیستم ریاضی جایگزین طراحی کنید که به سیستم عددی یا منطق فعلی ما متکی نباشد. اصول اولیه، عملیات و کاربردهای بالقوه آن را شرح دهید.”

جزئیات کامل مبحث “ریاضیات کیفی” را می توانید در گوگل داک مطالعه کنید.

3. سیستم جدید حکومت محلی

تصویر هوش مصنوعی از نوع جدیدی از دولت آینده/ایدئوگرام

(منبع تصویر: Ideogram 2/Future Artificial Intelligence)

بعد از دو دستور نسبتاً ساده، من در تست سوم توضیحات بیشتری دریافت کردم. در اینجا از او خواستم که سیستم حکومتی جدیدی ارائه دهد که مشکلات مدل های فعلی ما را حل کند.

اعلان: «سیستم حکومتی جدیدی طراحی کنید که کاستی‌های عمده سیستم‌های دموکراتیک، خودکامه و دیگر موجود را برطرف کند. پیشنهاد شما باید در نظر داشته باشد:

فرآیندهای تصمیم گیری و ساختارهای قدرت
نمایندگی و مشارکت شهروندان
کنترل و تعادل برای جلوگیری از سوء استفاده از قدرت
مدل اقتصادی و تخصیص منابع
رویکرد به قانونگذاری و اجرای قانون
پرداختن به حقوق فردی و مسئولیت های جمعی
روش‌های سازگاری با چالش‌ها و بحران‌های بلندمدت
ادغام فناوری در مدیریت
مقیاس پذیری از سطوح محلی به جهانی

“نقاط قوت و ضعف بالقوه سیستم پیشنهادی خود را ارزیابی کنید و در مورد چگونگی پیاده سازی یا انتقال آن از اشکال موجود حکومت بحث کنید.”

می توانید توضیح کامل o1 در مورد “حکمیت مشارکتی پویا (DPG)” را در Google Doc مشاهده کنید.

4. یک بازی مدیریت منابع مبتنی بر مریخ

بازی Mars توسط o1

(اعتبار تصویر: آینده/رایان موریسون)

کد جایی است که o1 واقعا می درخشد. توانایی آن در تولید خروجی طولانی تر و ارائه پاسخ های منطقی و دقیق تر، آن را در تولید کد جامع تر می کند. چه آزمایشی بهتر از یک بازی مستعمره مریخ؟ در اینجا، باید قابلیت مدیریت منابع، یک رابط کاربری و یک عنصر گیم پلی سرگرم کننده را از یک دستور واحد ایجاد کند.

پیام درخواستی برای این بسیار طولانی و گسترده است، بنابراین برای اختصار، خط اول و خلاصه‌ای را اضافه می‌کنم: «یک نسخه دوبعدی از Age of Empires را با استفاده از Python و Pygame در مریخ تنظیم کنید». سپس بیان می‌کند: «بازی باید شامل عناصر و ویژگی‌های زیر باشد، از جمله اندازه پنجره بازی، طرح‌های رنگی، ساختمان‌ها و مکانیک بازی».

5. دیکشنری اموجی-انگلیسی

دیکشنری ایموجی

(اعتبار تصویر: آینده/رایان موریسون)

در نهایت، این ایده پس از تلاش‌های فراوان برای ارائه مشکلات استدلالی به وجود آمد که مدل‌های دیگر قادر به حل آن‌ها نبودند – اما مدل‌های دیگر به حل آن‌ها ادامه دادند. من می‌خواستم با زبان جدیدی بیاید، اما کمی کلی به نظر می‌رسید، بنابراین از آن خواستم ایموجی را به یک زبان رسمی تبدیل کند.

Prompt: “فرض کنید یک سناریو که در آن گروهی از افراد فقط می توانند با استفاده از شکلک ها ارتباط برقرار کنند. این روشی است که آنها با یکدیگر ارتباط برقرار می کنند. با استفاده از تنها شکلک های معمولی موجود، یک فرهنگ لغت انگلیسی-Emoji ایجاد کنید که به فردی در آن گروه اجازه می دهد با فردی خارج از کشور ارتباط برقرار کند. گروهی که به زبان انگلیسی صحبت می کنند که ما امروز آن را می شناسیم.

می‌توانید کل دیکشنری Emoji و راهنمای شکلک‌ها را در Google Docs مشاهده کنید.

افکار نهایی

وقتی برای اولین بار از دو مدل مختلف o1 استفاده کردم متوجه شدم که بزرگترین مشکل پیدا کردن ایده هایی برای امتحان کردن است. اینها اساساً باعث می شوند که هوش مصنوعی دور شود، فکر کند و با پاسخ منطقی تری بازگردد. اما آنها به هیچ یک از ویژگی هایی که ما از هوش مصنوعی مدرن قدردانی می کنیم، مانند دسترسی به وب، حافظه و تجزیه و تحلیل داده ها، دسترسی ندارند.

او در کدنویسی، کارهای مفهومی طولانی مانند فرهنگ لغت ایموجی و مشکلاتی که نیاز به استدلال دارند، فوق العاده خوب است. یکی از نمونه‌هایی که در X دیدم این بود که شخصی از آن برای ایجاد یک برنامه کاری برای کارمندان مختلف با تجزیه و تحلیل ساعات موجود و شیفت‌های مورد نیاز استفاده می‌کرد.

هنگامی که OpenAI قابلیت آپلود فایل های داده را اضافه می کند، این یک تغییر بازی در تجارت خواهد بود و می تواند برای سازماندهی تعطیلات خانوادگی و مرتب کردن همه پیچیدگی های مختلف سفر، از جمله زمان بندی و برنامه، استفاده شود.

در حال حاضر، تنها با 30 پیام در هفته (من نیمی از آن را در یک روز استفاده کردم)، این یک انحراف سرگرم کننده است، اما برای اکثر موارد استفاده GPT-4o بیش از اندازه کافی است. در واقع، مینی GPT-04o برای استفاده اکثریت قریب به اتفاق مردم از هوش مصنوعی بسیار مناسب است و هوش اپل نیز به خوبی آن مدل است.