GPT-5.1 (Non-reasoning)

Unknown Size

By OpenAI • Released 2025-11-13

Capability Radar

Avg Score

40

Across all benchmarks

Participated

12

Benchmarks

Benchmark Performance

Benchmark	Category	Score
MMLU-Pro	Knowledge	80.1
GPQA Diamond	Knowledge	64.3
LiveCodeBench	Coding	49.4
𝜏²-Bench Telecom	Reasoning Knowledge	46.5
LCR	Long-Context Reasoning	44
IFBench	Agent	43.2
AIME 2025	Reasoning	38
SciCode	Reasoning Knowledge	36.5
Artificial Analysis Intelligence Index	Knowledge	27.4
Artificial Analysis Coding Index	Coding	27.3
Terminal-Bench Hard	Agent Coding	22.7
HLE	Knowledge Multi-Modal	5.2