GPT-4o (Nov '24)

Unknown Size

By OpenAI • Released 2024-11-20

Capability Radar

Avg Score

29

Across all benchmarks

Participated

14

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MATH-500	Reasoning	75.9
MMLU-Pro	Knowledge	74.8
GPQA Diamond	Knowledge	54.3
IFBench	Agent	34.3
SciCode	Reasoning Knowledge	33.3
LiveCodeBench	Coding	30.9
𝜏²-Bench Telecom	Reasoning Knowledge	25.1
SWE-bench (Bash Only)	Coding Agent	21.62
Artificial Analysis Coding Index	Coding	16.7
Artificial Analysis Intelligence Index	Knowledge	14.8
Terminal-Bench Hard	Agent Coding	8.3
AIME 2025	Reasoning	6
HLE	Knowledge Multi-Modal	3.3
LCR	Long-Context Reasoning	0