Modelos Relacionados
Benchmarks
MMLU-Pro
62.2%
GPQA Diamond
37.1%
HLE
3.7%
LiveCodeBench
15.9%
SciCode
22.9%
TerminalBench HardNão avaliado
MATH-500
70.1%
AIME
14.7%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score