Modelos Relacionados
Benchmarks
MMLU-Pro
76.8%
GPQA Diamond
57.8%
HLE
5.7%
LiveCodeBench
46.2%
SciCode
16.4%
TerminalBench HardNão avaliado
MATH-500
90.0%
AIME
66.3%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score