Olmo 3.1 32B Think

Unknown Size

By Allen Institute for AI • Released 2025-12-12

Capability Radar

Avg Score

34

Across all benchmarks

Participated

12

Benchmarks

Benchmark Performance

Benchmark	Category	Score
AIME 2025	Reasoning	77.3
MMLU-Pro	Knowledge	76.3
LiveCodeBench	Coding	69.5
IFBench	Agent	66
GPQA Diamond	Knowledge	59.1
SciCode	Reasoning Knowledge	29.3
Artificial Analysis Intelligence Index	Knowledge	14.2
Artificial Analysis Coding Index	Coding	9.8
HLE	Knowledge Multi-Modal	6
LCR	Long-Context Reasoning	0
𝜏²-Bench Telecom	Reasoning Knowledge	0
Terminal-Bench Hard	Agent Coding	0