Modelos Relacionados
Benchmarks
MMLU-Pro
63.5%
GPQA Diamond
41.7%
HLE
3.8%
LiveCodeBench
29.5%
SciCode
27.1%
TerminalBench HardNão avaliado
MATH-500
76.7%
AIME
12.0%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score