Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
66.1%
HLE
6.2%
LiveCodeBenchNão avaliado
SciCode
29.7%
TerminalBench Hard
11.4%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
45.2%
Long Context Recall
30.7%
Tau2
31.9%
Média do MercadoMelhor Score