GPT-4.1 mini

Unknown Size

By OpenAI • Released 2025-04-14

Capability Radar

Avg Score

42

Across all benchmarks

Participated

15

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MATH-500	Reasoning	92.5
MMLU-Pro	Knowledge	78.1
GPQA Diamond	Knowledge	66.4
τ-bench	Agent Knowledge	53
𝜏²-Bench Telecom	Reasoning Knowledge	52.9
LiveCodeBench	Coding	48.3
AIME 2025	Reasoning	46.3
LCR	Long-Context Reasoning	42.3
SciCode	Reasoning Knowledge	40.4
IFBench	Agent	38.3
SWE-bench (Bash Only)	Coding Agent	23.94
Artificial Analysis Intelligence Index	Knowledge	22.4
Artificial Analysis Coding Index	Coding	18.5
Terminal-Bench Hard	Agent Coding	7.6
HLE	Knowledge Multi-Modal	4.6