Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
75.3%
HLE
14.6%
LiveCodeBenchNão avaliado
SciCode
38.2%
TerminalBench Hard
18.2%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
73.5%
Long Context Recall
55.3%
Tau2
34.8%
Média do MercadoMelhor Score