昨晚,OpenAI正式发布了o1预览版!这是一系列全新的AI模型,旨在通过更深入的思考来提升复杂任务的推理能力。
为什么叫o1?
OpenAI表示:
对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为1,并将这一系列命名为OpenAI o1。
简单来说,这次模型的强大性能,让OpenAI重新命名了系列,开启了全新的o系列。
o1的发布标志着AI行业向通用人工智能(AGI)迈出了重要一步。
OpenAI最新o1模型表现如何?
o1模型在数学、代码和理科问题上的表现尤为突出:
数学竞赛(AIME 2025)
- GPT-4o:13.4%
- o1-preview:56.7%
- o1正式版:83.3%
代码竞赛
- GPT-4o:11.0%
- o1-preview:62%
- o1正式版:89%
博士级科学问题(GPQA Diamond)
- GPT-4o:56.1%
- 人类专家:69.7%
- o1-preview:78%
特别是在化学、物理和生物学等专业领域的基准测试中,o1的表现全面超越了人类博士专家,成为首个达到这一成就的AI模型。
如何使用OpenAI的o1模型?
目前,o1模型已逐步向ChatGPT Plus和Team用户开放。以下是不同版本的特点:
- o1:完整版本,功能强大,但暂未公开。
- o1-preview:预览版,适用于ChatGPT付费用户和API用户。
- o1-mini:更快、更小、更便宜,适合需要推理但无需广泛世界知识的任务。
注意:o1-preview每周限制30次使用,o1-mini每周限制50次。
o1模型的使用体验
在实际测试中,o1模型展现了强大的推理能力。例如:
问题1:农夫过河问题
农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河?
o1模型仅用6秒就给出了完美的解答。
问题2:复杂奥数题
对于一题极其复杂的奥数题,o1模型经过1分钟的思考后,给出了完全正确的答案。
提高o1模型回答质量的提示词
以下是一些有效的提示词策略:
- 保持提示简单直接:模型擅长处理简短、清晰的指令。
- 避免思路链提示:无需提示模型“逐步思考”或“解释推理”。
- 使用分隔符:通过三重引号、XML标签等分隔符提高输入清晰度。
- 限制附加上下文:仅提供最相关的信息,避免干扰模型的推理。
o1模型的使用限制
根据官方通知:
- o1-preview:每周限制30次使用。
- o1-mini:每周限制50次使用。
当超过限制时,会出现如下提示:
You’ve hit the Plus plan limit for o1-preview
Response will use another model until your limit resets.
是否值得升级使用o1模型?
o1模型是目前最强大的大语言模型,但由于其较长的思考时间和严格的使用限制,可能并不适合日常使用。然而,o1的潜力无疑是通向未来的重要基石。
建议尝试使用,但日常任务仍以GPT-4o为主。
如何升级使用o1模型?
目前,o1模型已向ChatGPT Plus和Team用户开放。升级到ChatGPT Plus后即可使用。
如果您在国内无法使用银行卡支付,可以尝试使用虚拟信用卡服务,例如:
通过WildCard,您可以轻松完成ChatGPT Plus的升级,解决国内支付问题。
OpenAI的o1模型无疑是AI领域的一次重大突破,未来值得期待!