Modelos Relacionados
Benchmarks
MMLU-Pro
40.6%
GPQA Diamond
32.7%
HLE
5.0%
LiveCodeBench
9.8%
SciCodeNão avaliado
TerminalBench HardNão avaliado
MATH-500
32.3%
AIME
0.0%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score