Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
27.8%
HLE
6.5%
LiveCodeBenchNão avaliado
SciCode
4.4%
TerminalBench Hard
0.0%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBench
49.3%
Long Context Recall
3.7%
Tau2
81.0%
Média do MercadoMelhor Score