Benchmarks
MMLU-ProNão avaliado
GPQA DiamondNão avaliado
HLENão avaliado
LiveCodeBenchNão avaliado
SciCodeNão avaliado
TerminalBench HardNão avaliado
MATH-500
95.4%
AIMENão avaliado
AIME 2025Não avaliado
IFBenchNão avaliado
Long Context RecallNão avaliado
Tau2Não avaliado
Média do MercadoMelhor Score