Modelos Relacionados
Benchmarks
MMLU-Pro
27.7%
GPQA Diamond
26.3%
HLE
5.0%
LiveCodeBench
11.5%
SciCode
8.2%
TerminalBench Hard
0.0%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025
6.3%
IFBench
26.2%
Long Context Recall
6.3%
Tau2
19.6%
Média do MercadoMelhor Score