Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
65.7%
HLE
9.2%
LiveCodeBenchNão avaliado
SciCode
26.9%
TerminalBench Hard
2.3%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
57.7%
Long Context Recall
36.0%
Tau2
48.2%
Média do MercadoMelhor Score