Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
62.3%
HLENão avaliado
LiveCodeBenchNão avaliado
SciCodeNão avaliado
TerminalBench HardNão avaliado
MATH-500
92.1%
AIME
77.0%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score