Modelos Relacionados
Benchmarks
MMLU-Pro
12.4%
GPQA Diamond
26.1%
HLE
5.7%
LiveCodeBench
2.4%
SciCode
0.9%
TerminalBench Hard
0.0%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025
0.0%
IFBench
15.9%
Long Context Recall
0.0%
Tau2
13.2%
Média do MercadoMelhor Score