Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
67.6%
HLE
6.6%
LiveCodeBenchNão avaliado
SciCode
27.2%
TerminalBench Hard
18.2%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
36.7%
Long Context Recall
11.7%
Tau2
93.0%
Média do MercadoMelhor Score