Llama 3.3 Instruct 70B

Unknown Size

By Meta • Released 2024-12-06

Capability Radar

Avg Score

29

Across all benchmarks

Participated

13

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MATH-500	Reasoning	77.3
MMLU-Pro	Knowledge	71.3
GPQA Diamond	Knowledge	49.8
IFBench	Agent	47.1
LiveCodeBench	Coding	28.8
𝜏²-Bench Telecom	Reasoning Knowledge	26.6
SciCode	Reasoning Knowledge	26
LCR	Long-Context Reasoning	15
Artificial Analysis Intelligence Index	Knowledge	14.2
Artificial Analysis Coding Index	Coding	10.7
AIME 2025	Reasoning	7.7
HLE	Knowledge Multi-Modal	4
Terminal-Bench Hard	Agent Coding	3