gpt-oss-120B (low)

Unknown Size

By OpenAI • Released 2025-08-05

Capability Radar

Avg Score

43

Across all benchmarks

Participated

12

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MMLU-Pro	Knowledge	77.5
LiveCodeBench	Coding	70.7
GPQA Diamond	Knowledge	67.2
AIME 2025	Reasoning	66.7
IFBench	Agent	58.3
𝜏²-Bench Telecom	Reasoning Knowledge	45
LCR	Long-Context Reasoning	43.7
SciCode	Reasoning Knowledge	36
Artificial Analysis Intelligence Index	Knowledge	23.9
Artificial Analysis Coding Index	Coding	15.5
Terminal-Bench Hard	Agent Coding	5.3
HLE	Knowledge Multi-Modal	5.2