Llama 4 Maverick

Unknown Size

By Meta • Released 2025-04-05

Capability Radar

Avg Score

36

Across all benchmarks

Participated

14

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MATH-500	Reasoning	88.9
MMLU-Pro	Knowledge	80.9
GPQA Diamond	Knowledge	67.1
LCR	Long-Context Reasoning	46
IFBench	Agent	43
LiveCodeBench	Coding	39.7
SciCode	Reasoning Knowledge	33.1
SWE-bench (Bash Only)	Coding Agent	21.04
AIME 2025	Reasoning	19.3
Artificial Analysis Intelligence Index	Knowledge	18.3
𝜏²-Bench Telecom	Reasoning Knowledge	17.8
Artificial Analysis Coding Index	Coding	15.6
Terminal-Bench Hard	Agent Coding	6.8
HLE	Knowledge Multi-Modal	4.8