Scientific Reasoning Leaderboard

Models ranked by GPQA Diamond, based on independent benchmark evaluations.

Each row shows the model's benchmark score alongside its pricing and output speed, so you can evaluate quality-to-cost tradeoffs at a glance.

Top 20 models ranked by gpqa diamond

Rank	Model	Creator	GPQA Diamond	Price/1M	Speed
🥇	Google: Gemini 3.1 Pro Preview Google	Google	0.9	$4.50	141 tok/s
🥈	OpenAI: GPT-5.5 OpenAI	OpenAI	0.9	$11.25	82 tok/s
🥉	GPT-5.5 (high) OpenAI	OpenAI	0.9	$11.25	83 tok/s
4	MiniMax: MiniMax M3 MiniMax	MiniMax	0.9	$0.52	85 tok/s
5	Anthropic: Claude Fable 5 Anthropic	Anthropic	0.9	$20.00	77 tok/s
6	GPT-5.5 (medium) OpenAI	OpenAI	0.9	$11.25	71 tok/s
7	Qwen: Qwen3.7 Max Alibaba	Alibaba	0.9	$1.88	196 tok/s
8	Google: Gemini 3.5 Flash Google	Google	0.9	$3.38	210 tok/s
9	Gemini 3.5 Flash (medium) Google	Google	0.9	$3.38	211 tok/s
10	Anthropic: Claude Opus 4.8 Anthropic	Anthropic	0.9	$10.00	58 tok/s
11	OpenAI: GPT-5.4 OpenAI	OpenAI	0.9	$5.63	166 tok/s
12	OpenAI: GPT-5.3-Codex OpenAI	OpenAI	0.9	$4.81	100 tok/s
13	Anthropic: Claude Opus 4.7 Anthropic	Anthropic	0.9	$10.00	51 tok/s
14	MoonshotAI: Kimi K2.6 Kimi	Kimi	0.9	$1.35	54 tok/s
15	xAI: Grok 4.20 xAI	xAI	0.9	$1.56	234 tok/s
16	GPT-5.5 (low) OpenAI	OpenAI	0.9	$11.25	70 tok/s
17	Gemini 3 Pro Preview (high) Google	Google	0.9	$4.50	161 tok/s
18	DeepSeek V4 Pro (Reasoning, High Effort) DeepSeek	DeepSeek	0.9	$0.54	81 tok/s
19	OpenAI: GPT-5.2 OpenAI	OpenAI	0.9	$4.81	85 tok/s
20	xAI: Grok 4.3 xAI	xAI	0.9	$1.56	150 tok/s