Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
31.4%
HLE
3.4%
LiveCodeBenchNão avaliado
SciCode
11.9%
TerminalBench Hard
2.3%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
33.7%
Long Context Recall
3.0%
Tau2
19.6%
Média do MercadoMelhor Score