Modelos Relacionados
Benchmarks
MMLU-Pro
74.2%
GPQA Diamond
60.3%
HLE
4.9%
LiveCodeBench
57.6%
SciCode
32.3%
TerminalBench HardNão avaliado
MATH-500
94.4%
AIME
60.3%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score