Modelos Relacionados
Benchmarks
MMLU-Pro
67.1%
GPQA Diamond
56.2%
HLE
5.0%
LiveCodeBench
42.9%
SciCode
13.5%
TerminalBench Hard
0.8%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025
49.3%
IFBench
23.6%
Long Context Recall
6.7%
Tau2
13.2%
Média do MercadoMelhor Score