Modelos Relacionados
Benchmarks
MMLU-Pro
53.7%
GPQA Diamond
33.2%
HLE
4.1%
LiveCodeBench
14.8%
SciCode
18.8%
TerminalBench HardNão avaliado
MATH-500
54.5%
AIME
0.0%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score