Benchmarks
MMLU-Pro
42.5%
GPQA Diamond
32.7%
HLE
4.9%
LiveCodeBench
9.6%
SciCode
7.1%
TerminalBench HardNão avaliado
MATH-500
48.0%
AIME
2.3%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score