Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
71.3%
HLE
9.5%
LiveCodeBenchNão avaliado
SciCode
33.0%
TerminalBench Hard
6.8%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
62.8%
Long Context Recall
52.7%
Tau2
25.4%
Média do MercadoMelhor Score