Llama 4 Scout

Unknown Size

By Meta • Released 2025-04-05

Capability Radar

Avg Score

28

Across all benchmarks

Participated

14

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MATH-500	Reasoning	84.4
MMLU-Pro	Knowledge	75.2
GPQA Diamond	Knowledge	58.7
IFBench	Agent	39.5
LiveCodeBench	Coding	29.9
LCR	Long-Context Reasoning	25.8
SciCode	Reasoning Knowledge	17
𝜏²-Bench Telecom	Reasoning Knowledge	15.5
AIME 2025	Reasoning	14
Artificial Analysis Intelligence Index	Knowledge	13.5
SWE-bench (Bash Only)	Coding Agent	9.06
Artificial Analysis Coding Index	Coding	6.7
HLE	Knowledge Multi-Modal	4.3
Terminal-Bench Hard	Agent Coding	1.5