Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
33.9%
HLE
6.1%
LiveCodeBenchNão avaliado
SciCode
4.2%
TerminalBench Hard
0.0%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
41.8%
Long Context Recall
0.0%
Tau2
19.6%
Média do MercadoMelhor Score