Modelos Relacionados
Benchmarks
MMLU-Pro
5.5%
GPQA Diamond
22.4%
HLE
4.2%
LiveCodeBench
0.3%
SciCode
0.0%
TerminalBench Hard
0.0%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025
2.3%
IFBench
12.1%
Long Context Recall
0.0%
Tau2
9.1%
Média do MercadoMelhor Score