Benchmarks
MMLU-Pro
39.7%
GPQA Diamond
33.1%
HLE
6.6%
LiveCodeBench
9.3%
SciCode
11.8%
TerminalBench HardNão avaliado
MATH-500
27.9%
AIME
3.0%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score