OpenAI o3-mini报告

Zhangwenniu 于 2025-03-15 发布

我们发布了OpenAI o3‑mini,这是我们的推理系列中最新的、最具成本效益的模型,今天在ChatGPT和API中均可使用。该模型于2024年12月预览,这款强大且快速的模型突破了小型模型所能达到的边界,提供了卓越的STEM能力——特别是在科学、数学和编程方面——同时保持了OpenAI o1‑mini的低成本和低延迟。

OpenAI o3‑mini是我们第一款支持开发者高度需求功能的小型推理模型,包括函数调用、结构化输出和开发者消息,使其在发布时即具备生产就绪性。与OpenAI o1‑mini和OpenAI o1‑preview一样,o3‑mini将支持流式传输。此外,开发者可以选择三种推理努力程度——低、中、高——以优化其特定用例。这种灵活性使得o3‑mini在应对复杂挑战时可以“更深入地思考”,或在延迟成为问题时优先考虑速度。o3‑mini不支持视觉能力,因此开发者应继续使用OpenAI o1进行视觉推理任务。o3‑mini今天开始在Chat Completions API、Assistants API和Batch API中向API使用级别3-5的开发者推出。

ChatGPT Plus、Team和Pro用户今天起可以访问OpenAI o3‑mini,企业访问将于二月推出。o3‑mini将取代OpenAI o1‑mini在模型选择器中的位置,提供更高的速率限制和更低的延迟,使其成为编码、STEM和逻辑问题解决任务的理想选择。作为此次升级的一部分,我们将Plus和Team用户的速率限制从o1‑mini的每天50条消息提高到o3‑mini的每天150条消息。此外,o3‑mini现在可以与搜索结合使用,以找到最新的答案并提供相关网页来源的链接。这是我们努力将搜索集成到推理模型中的早期原型。

从今天起,免费计划用户也可以通过选择消息编辑器中的“推理”或重新生成响应来尝试OpenAI o3‑mini。这是首次在ChatGPT中向免费用户提供推理模型。

虽然OpenAI o1仍然是我们的广泛通用知识推理模型,但OpenAI o3‑mini为需要精确性和速度的技术领域提供了专门的替代方案。在ChatGPT中,o3‑mini使用中等推理努力程度,以在速度和准确性之间提供平衡。所有付费用户还可以在模型选择器中选择o3‑mini‑high,以获得需要稍长时间生成响应的高智能版本。Pro用户可以无限制地访问o3‑mini和o3‑mini‑high。

快速、强大且针对STEM推理优化 与OpenAI o1前身类似,OpenAI o3‑mini针对STEM推理进行了优化。使用中等推理努力程度的o3‑mini在数学、编码和科学方面的表现与o1相当,同时提供更快的响应。专家测试人员的评估显示,o3‑mini比OpenAI o1‑mini产生更准确、更清晰的答案,具有更强的推理能力。测试人员更喜欢o3‑mini的响应,而不是o1‑mini的响应,占56%的时间,并且在困难的现实世界问题上观察到主要错误减少了39%。使用中等推理努力程度,o3‑mini在包括AIME和GPQA在内的最具挑战性的推理和智力评估中与o1的表现相当。

Competition Math (AIME 2024)

fig.1

数学: 在低推理努力程度下,OpenAI o3‑mini的表现与OpenAI o1‑mini相当,而在中等努力程度下,o3‑mini的表现与o1相当。同时,在高推理努力程度下,o3‑mini的表现优于OpenAI o1‑mini和OpenAI o1,其中灰色阴影区域显示了64个样本的多数投票(共识)表现。

PhD-level Science Questions (GPQA Diamond)

fig.2

博士级科学: 在博士级生物学、化学和物理问题上,低推理努力程度下,OpenAI o3‑mini的表现高于OpenAI o1‑mini。在高努力程度下,o3‑mini的表现与o1相当。

FrontierMath

table.1

研究级数学: 在高推理努力程度下,OpenAI o3‑mini在FrontierMath上的表现优于其前身。在FrontierMath上,当提示使用Python工具时,高推理努力程度的o3‑mini首次尝试解决了超过32%的问题,包括超过28%的挑战性(T3)问题。这些数字是临时的,上图显示了不使用工具或计算器的表现。

Competition Code (Codeforces)

fig.3

竞赛编程: 在Codeforces竞赛编程中,OpenAI o3‑mini随着推理努力程度的增加,Elo分数逐渐提高,均优于o1‑mini。在中等推理努力程度下,其表现与o1相当。

Software Engineering (SWE-bench Verified)

fig.4

软件工程: o3‑mini是我们在SWEbench-verified上表现最高的发布模型。有关高推理努力程度下SWE-bench Verified结果的额外数据点,包括使用开源Agentless框架(39%)和代表最大能力激发内部工具框架(61%),请参阅我们的系统卡作为权威来源。

LiveBench编程

table.2

LiveBench编程: 即使在中等推理努力程度下,OpenAI o3‑mini也超越了o1‑high,突显了其在编码任务中的效率。在高推理努力程度下,o3‑mini进一步扩大了领先优势,在关键指标上实现了显著更强的表现。

table.3

通用知识: 在通用知识领域的评估中,o3‑mini的表现优于o1‑mini。

fig.5

fig.6

人类偏好评估: 外部专家测试人员的评估也显示,OpenAI o3‑mini比OpenAI o1‑mini产生更准确、更清晰的答案,尤其是在STEM领域具有更强的推理能力。测试人员更喜欢o3‑mini的响应,而不是o1‑mini的响应,占56%的时间,并且在困难的现实世界问题上观察到主要错误减少了39%。

模型速度与性能

OpenAI o3‑mini在智能上与OpenAI o1相当,但提供了更快的性能和更高的效率。除了上述强调的STEM评估外,o3‑mini在中等推理努力程度下,在额外的数学和事实性评估中也表现出色。在A/B测试中,o3‑mini的响应速度比o1‑mini快24%,平均响应时间为7.7秒,而o1‑mini为10.16秒。

fig.7

延迟: o3‑mini的平均首个token时间比o1‑mini快2500ms。

安全性

我们用于教导OpenAI o3‑mini安全回应的关键技术之一是审议对齐,即在回答用户提示之前,我们训练模型推理人类编写的安全规范。与OpenAI o1类似,我们发现o3‑mini在具有挑战性的安全和越狱评估中显著超越了GPT‑4o。在部署之前,我们使用与o1相同的准备、外部红队和安全评估方法,仔细评估了o3‑mini的安全风险。我们感谢在早期访问中申请测试o3‑mini的安全测试人员。评估的详细信息以及潜在风险和缓解措施有效性的全面解释,可在o3‑mini系统卡中找到。

Disallowed content evaluations

table.4

Jailbreak Evaluations

table.5

下一步

OpenAI o3‑mini的发布标志着OpenAI在推动成本效益智能边界使命中的又一步。通过优化STEM领域的推理并保持低成本,我们使高质量AI更加普及。该模型延续了我们降低智能成本的记录——自GPT‑4推出以来,每个token的价格降低了95%——同时保持了顶级的推理能力。随着AI采用范围的扩大,我们仍然致力于在前沿领域引领,构建在智能、效率和安全之间实现大规模平衡的模型。

关键问题解答

什么是STEM?

STEM是科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)四类学科的简称,强调多个学科的交叉融汇,旨在通过整合不同学科的知识,培养学生的设计能力、合作能力、问题解决能力和实践创新能力。

STEM理念最早可追溯到20世纪50年代美国学者提出的科学素养概念,并在1986年由美国国家科学委员会首次明确提出整合科学、数学、工程和技术教育的纲领性建议。STEM教育不仅仅是这些学科的简单组合,而是一种解决现实问题的方法,强调从科学规律探索到技术工具开发、工程方案落地、数学建模验证的全链条协作。

STEM的核心价值在于通过跨学科的融合,推动科技进步、提升经济竞争力,并培养具备创新能力和批判性思维的复合型人才。

什么是AIME?

AIME(American Invitational Mathematics Examination,美国数学邀请赛)是美国数学竞赛(AMC)系列赛事中的重要一环,衔接了AMC10/12与美国数学奥林匹克(USAMO)/美国少年数学奥林匹克(USAJMO)。AIME主要面向在AMC10/12竞赛中表现优异的学生开放,具体来说,AMC12测验中得分在100分以上或成绩为所有参赛者的前5%,以及在AMC10测验中成绩为所有参赛者的前1%的学生,都有资格被邀请参加AIME。

AIME竞赛始于1983年,通常在每年的2月份举行,分为AIME I和AIME II两场,考试时长为3小时,试卷包含15道填空题,总分为15分。所有题目的答案均需在000至999的数字范围内给出。

AIME的含金量很高,尤其是在申请美国学校的时候。许多顶尖大学,如斯坦福大学、麻省理工学院(MIT)、耶鲁、哥大等,在申请表格中都专门设有填写AMC/AIME成绩的栏目,这些学校对AIME成绩给予了高度的认可和重视。

AIME竞赛的目的是选拔在大学之前阶段在数学方面表现出色的学生,为美国数学奥林匹克竞赛选拔参赛者。该考试为数学方面有优势的高中生提供了进一步挑战的机会,也为他们认识自己的才能提供了机会。

什么是GPQA?

GPQA(Graduate-Level Google-Proof Q&A Benchmark)是一个高难度的问答基准测试,专门用于评估模型在研究生级别知识水平和复杂推理场景下的表现。它由生物学、物理学和化学领域的专家编写,包含448道多项选择题,特点是高质量和极端难度。即使是拥有或正在攻读相关领域博士学位的专家,准确率也只有65%,而高技能的非专家验证者,即使在允许访问网络超过30分钟的情况下,准确率也仅为34%。

GPQA的核心目标是精准衡量模型是否具备深入理解专业知识、运用逻辑思维解决复杂问题以及进行审慎推理的能力,推动人工智能迈向能够处理现实世界中高难度专业任务的新阶段,助力实现专家级通用人工智能(AGI)的长远目标。

GPQA-Diamond是GPQA系列中的最高难度子集,专注于评估大模型在博士级科学问题上的推理能力和专业知识。它由纽约大学、Cohere AI和Anthropic的研究团队联合开发,包含198条高难度问题,是原版GPQA的精选子集,确保评测数据的纯净与高质量。

总的来说,GPQA是一个极具挑战性的基准测试,用于评估模型在高级推理和专业知识应用方面的能力。

什么是Elo分数?

Elo分数是一种用于评估玩家或团队相对技能水平的评分系统,最初由匈牙利裔美国物理学家阿尔帕德·埃洛(Arpad Elo)为国际象棋设计。如今,Elo评分系统被广泛应用于各种竞技游戏和体育赛事中,如围棋、电子竞技、足球等。

Elo评分系统的核心原理

1. 基础假设:Elo系统假设每位选手的表现在一定时间内是围绕某个平均水平波动的,且表现符合正态分布。通过比赛结果,系统动态调整选手的评级分数,以反映其相对实力。

2. 计算公式

预期得分:假设选手A的Elo评分为\(R_A\),选手B的评分为\(R_B\),则选手A的预期得分\(E_A\)为:

\[E_A = \frac{1}{1 + 10^{(R_B - R_A)/400}}\]

同理,选手B的预期得分\(E_B\)为:

\[E_B = 1 - E_A\]

实际得分:比赛结束后,根据结果确定实际得分\(S_A\)(胜为1,负为0,平局为0.5)。

评分更新:选手A的新评分\(R'_A\)为:

\[R'_A = R_A + K \cdot (S_A - E_A)\]

其中,\(K\)为常数,称为“K因子”,控制评分变化的速度。

Elo系统的应用

电子竞技:如《英雄联盟》《DOTA2》等游戏使用Elo系统进行匹配和排名。

传统体育:如网球、乒乓球等赛事用Elo评估选手实力和预测比赛结果。

在线竞赛平台:如编程竞赛、数据科学竞赛等也采用Elo机制评估参赛者水平。

Elo系统的优势

公平性:通过动态调整评分,实现实力相近的选手匹配,提高比赛公平性。

适应性:通过调整\(K\)值等参数,适应不同类型的竞技项目和选手群体。

可解释性:评分机制简单易懂,选手和观众可以直观理解实力变化。

Elo系统的局限性

忽视比赛过程:仅根据比赛结果调整评分,无法反映比赛中的具体表现差异。

实力波动适应性不足:面对选手实力突然大幅变化时,反应可能不够迅速。

对手实力估计偏差:对手的评分可能受状态等因素影响,导致评分调整不准确。

总结来说,Elo分数是一种通过比赛结果动态调整评分的系统,广泛应用于各类竞技活动,以实现公平匹配和实力评估。

什么是SWE-bench?

SWE-bench(Software Engineering Benchmark)是一个用于评估大型语言模型(LLM)解决现实世界软件工程问题能力的基准测试。它通过模拟真实的软件开发场景,要求模型生成代码补丁来解决从GitHub提取的已解决问题(issue)。每个测试样本包括一个代码库、问题描述以及相关的拉取请求(PR),其中包含解决方案代码和用于验证代码正确性的单元测试。

SWE-bench的评估方式包括两类测试:

1. FAIL_TO_PASS测试:用于验证生成的补丁是否解决了问题。

2. PASS_TO_PASS测试:确保补丁没有破坏代码库中不相关的部分。

尽管SWE-bench在评估AI模型能力方面具有重要价值,但它也存在一些局限性,例如单元测试过于严格、问题描述不够明确以及开发环境设置困难等,这些问题可能导致模型能力被低估。

为了解决这些问题,OpenAI推出了SWE-bench Verified,这是SWE-bench的改进版本。SWE-bench Verified通过人工筛选和验证,确保问题描述清晰、单元测试合理,并优化了开发环境设置,从而提高了评估的准确性和可靠性。

总结来说,SWE-bench是一个用于评估AI模型在软件工程任务中表现的重要基准测试,而SWE-bench Verified则是其改进版本,旨在更准确地反映模型的真实能力。

什么是LiveBench?

LiveBench是一个用于评估大型语言模型(LLM)性能的基准测试平台,旨在通过动态更新的问题和客观的评分机制,提供公平、准确的模型能力评估。它由图灵奖得主Yann LeCun联合Abacus.AI、纽约大学等机构推出,被称为“世界上第一个无法被操纵的LLM基准测试”。

LiveBench的核心特点:

1. 动态更新问题:每月发布新问题,基于最新发布的数据集、arXiv论文、新闻文章和IMDb电影简介生成,避免数据污染。

2. 客观评分:每个问题都有可验证的、客观的真实答案,支持自动评分,无需依赖LLM作为评委。

3. 多维度评估:涵盖推理、编程、写作、数据分析、语言理解和指令跟随等多个复杂维度。

4. 任务多样性:包含6大类18项任务,并会定期发布新的、更难的挑战。

LiveBench的应用场景:

模型性能对比:帮助开发者和研究人员评估不同LLM在特定任务上的表现。

避免数据污染:通过动态更新问题,防止模型通过训练数据“作弊”。

推动模型改进:为LLM的研发和优化提供数据支持。

LiveBench的权威性:

LiveBench以其权威性和客观性著称,是当前AIGC领域最具公信力的评测之一。它通过定期更新问题和自动化评分方法,确保了评测的公平性和准确性。

总结来说,LiveBench是一个动态更新、客观公正的LLM基准测试平台,旨在通过多维度评估和避免数据污染,推动大型语言模型的持续改进和公平竞争。

评论