Modelos Relacionados
Benchmarks
MMLU-Pro
70.3%
GPQA Diamond
47.1%
HLE
4.7%
LiveCodeBench
24.1%
SciCode
29.5%
TerminalBench HardNão avaliado
MATH-500
73.7%
AIME
10.3%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score