o4-mini (high)

Unknown Size

By OpenAI • Released 2025-04-16

Capability Radar

Avg Score

57

Across all benchmarks

Participated

15

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MATH-500	Reasoning	98.9
AIME 2025	Reasoning	90.7
LiveCodeBench	Coding	85.9
MMLU-Pro	Knowledge	83.2
GPQA Diamond	Knowledge	78.4
IFBench	Agent	68.7
τ-bench	Agent Knowledge	56.9
𝜏²-Bench Telecom	Reasoning Knowledge	55.6
LCR	Long-Context Reasoning	55
SciCode	Reasoning Knowledge	46.5
SWE-bench (Bash Only)	Coding Agent	45
Artificial Analysis Intelligence Index	Knowledge	33
Artificial Analysis Coding Index	Coding	25.6
HLE	Knowledge Multi-Modal	17.5
Terminal-Bench Hard	Agent Coding	15.2