Benchmarks
MMLU-Pro
31.0%
GPQA Diamond
23.0%
HLE
4.8%
LiveCodeBench
11.5%
SciCodeNão avaliado
TerminalBench HardNão avaliado
MATH-500
30.7%
AIME
0.0%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score