o3-mini (high)

Unknown Size

By OpenAI • Released 2025-01-31

Capability Radar

Avg Score

47

Across all benchmarks

Participated

12

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MATH-500	Reasoning	98.5
MMLU-Pro	Knowledge	80.2
GPQA Diamond	Knowledge	77.3
LiveCodeBench	Coding	73.4
IFBench	Agent	67.1
SciCode	Reasoning Knowledge	39.8
LCR	Long-Context Reasoning	39.3
𝜏²-Bench Telecom	Reasoning Knowledge	31.3
Artificial Analysis Intelligence Index	Knowledge	25.1
Artificial Analysis Coding Index	Coding	17.3
HLE	Knowledge Multi-Modal	12.3
Terminal-Bench Hard	Agent Coding	6.1