Modelos Relacionados
Benchmarks
MMLU-ProNão avaliado
GPQA Diamond
28.9%
HLENão avaliado
LiveCodeBenchNão avaliado
SciCodeNão avaliado
TerminalBench HardNão avaliado
MATH-500Não avaliado
AIMENão avaliado
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score