Olmo 3 32B Think

Unknown Size

By Allen Institute for AI • Released 2025-11-20

Capability Radar

Avg Score

32

Across all benchmarks

Participated

12

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MMLU-Pro	Knowledge	75.9
AIME 2025	Reasoning	73.7
LiveCodeBench	Coding	67.2
GPQA Diamond	Knowledge	61
IFBench	Agent	49.1
SciCode	Reasoning Knowledge	28.6
Artificial Analysis Intelligence Index	Knowledge	12
Artificial Analysis Coding Index	Coding	10.5
HLE	Knowledge Multi-Modal	5.9
Terminal-Bench Hard	Agent Coding	1.5
LCR	Long-Context Reasoning	0
𝜏²-Bench Telecom	Reasoning Knowledge	0