Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
53.8%
HLE
5.7%
LiveCodeBenchNão avaliado
SciCode
17.8%
TerminalBench Hard
2.3%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
47.1%
Long Context Recall
14.7%
Tau2
93.3%
Média do MercadoMelhor Score