Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
48.1%
HLE
4.2%
LiveCodeBenchNão avaliado
SciCode
25.8%
TerminalBench Hard
2.3%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
44.4%
Long Context Recall
18.7%
Tau2
42.1%
Média do MercadoMelhor Score