Modelos Relacionados
Benchmarks
MMLU-Pro
58.5%
GPQA Diamond
41.2%
HLE
2.7%
LiveCodeBench
37.8%
SciCode
19.9%
TerminalBench Hard
11.4%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025
36.3%
IFBench
28.1%
Long Context Recall
25.7%
Tau2
0.0%
Média do MercadoMelhor Score