Modelos Relacionados
Benchmarks
MMLU-Pro
70.0%
GPQA Diamond
49.4%
HLE
4.4%
LiveCodeBench
32.0%
SciCode
17.1%
TerminalBench Hard
1.5%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025
25.7%
IFBench
36.6%
Long Context Recall
21.3%
Tau2
15.5%
Média do MercadoMelhor Score