Llama 3.1 Instruct 405B

Unknown Size

By Meta • Released 2024-07-23

Capability Radar

Avg Score

29

Across all benchmarks

Participated

13

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MMLU-Pro	Knowledge	73.2
MATH-500	Reasoning	70.3
GPQA Diamond	Knowledge	51.5
IFBench	Agent	39
LiveCodeBench	Coding	30.5
SciCode	Reasoning Knowledge	29.9
LCR	Long-Context Reasoning	24.3
𝜏²-Bench Telecom	Reasoning Knowledge	19
Artificial Analysis Coding Index	Coding	14.5
Artificial Analysis Intelligence Index	Knowledge	14.2
Terminal-Bench Hard	Agent Coding	6.8
HLE	Knowledge Multi-Modal	4.2
AIME 2025	Reasoning	3