Modelos Relacionados
Benchmarks
MMLU-Pro
69.7%
GPQA Diamond
46.6%
HLE
3.8%
LiveCodeBench
24.8%
SciCode
22.9%
TerminalBench HardNão avaliado
MATH-500
80.5%
AIME
11.0%
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score