Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
66.9%
HLE
10.2%
LiveCodeBenchNão avaliado
SciCode
34.3%
TerminalBench HardNão avaliado
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
59.5%
Long Context Recall
14.3%
Tau2Não avaliado
Média do MercadoMelhor Score