Modelos Relacionados
Benchmarks
MMLU-Pro
78.2%
GPQA Diamond
63.6%
HLE
4.7%
LiveCodeBench
21.0%
SciCode
34.0%
TerminalBench HardNão avaliado
MATH-500
91.1%
AIME
30.0%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score