Modelos Relacionados
Benchmarks
MMLU-Pro
72.5%
GPQA Diamond
54.4%
HLE
3.8%
LiveCodeBench
38.5%
SciCode
27.2%
TerminalBench HardNão avaliado
MATH-500
87.1%
AIME
29.7%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score