GPT-5.5 chega com qualidade 60.2, mas Opus 4.8 mantém a coroa
O GPT-5.5 da OpenAI fica em segundo em qualidade enquanto custa 12% a mais que o Claude Opus 4.8. O Gemini 3.1 Pro ainda vence no preço por qualidade.
A OpenAI lançou o GPT-5.5 (OpenAI) esta semana com qualidade 60.2 e $11.25/1M de tokens. Ele fica em segundo no índice de qualidade, 1.2 ponto atrás do Claude Opus 4.8 em 61.4, e custa 12.5% a mais por milhão de tokens. O topo do ranking agora é uma disputa entre dois competidores, onde você paga um valor extra por ganhos marginais.
Os números que importam
| Modelo | Qualidade | Preço/1M | Velocidade |
|---|---|---|---|
| Claude Opus 4.8 | 61.4 | $10.00 | 66 tok/s |
| GPT-5.5 | 60.2 | $11.25 | 62 tok/s |
| Gemini 3.1 Pro Preview | 57.2 | $4.50 | 136 tok/s |
| Qwen3.7 Max | 56.6 | $1.88 | 102 tok/s |
Os níveis de raciocínio do GPT-5.5 contam sua própria história. A configuração padrão pontua 60.2, mas o high cai para 58.9 e o medium para 56.7. Essa inversão é incomum e merece atenção: gastar mais com esforço de raciocínio aqui compra uma qualidade menor nos benchmarks, não maior. Para a maioria dos pipelines, o nível padrão é o que vale a pena usar.
Onde o valor realmente está
Opus 4.8 e GPT-5.5 têm velocidade de saída praticamente igual (66 vs 62 tok/s) e qualidade quase equivalente. Se você já está na Anthropic, o GPT-5.5 não lhe dá motivo para mudar — você pagaria mais por 1.2 ponto a menos de qualidade.
A verdadeira história está abaixo da fronteira. O Gemini 3.1 Pro Preview fica em 57.2 de qualidade por $4.50/1M e roda a 136 tok/s. Contra o GPT-5.5, isso representa uma diferença de 3 pontos em qualidade por 60% menos e mais que o dobro de throughput.
Para cargas de trabalho intensivas em código ou agênticas, onde você dispara muitas chamadas, o valor extra da fronteira raramente sobrevive aos cálculos. Três pontos de qualidade não compensam dobrar sua conta de tokens em um pipeline cheio de retentativas.
A faixa de pesos abertos
O Qwen3.7 Max (Alibaba) mantém 56.6 de qualidade a $1.88/1M e é open source. Isso está a apenas 0.6 ponto do Gemini 3.1 Pro por menos da metade do preço, com pesos que você pode hospedar por conta própria. Para jobs em lote onde você controla o hardware, é o caminho mais barato para uma saída próxima da fronteira.
O MiniMax M3, a $0.52/1M e qualidade 54.7, continua sendo o piso para trabalhos sensíveis a custo, embora seu throughput de 44 tok/s o torne uma escolha ruim para loops interativos.
O que observar
- Se a OpenAI vai corrigir a inversão dos níveis de raciocínio do GPT-5.5 ou se o
highestá genuinamente ajustado para tarefas que o índice não captura. - O Gemini 3.1 Pro ainda está rotulado como Preview. Um lançamento GA pelo mesmo preço de $4.50 pressionaria ambos os modelos de fronteira no custo por qualidade.
- O Qwen3.7 Max fechando os últimos 0.6 ponto de diferença para o Gemini tornaria o nível de fronteira difícil de justificar para qualquer coisa além das chamadas mais críticas em qualidade.
Quer analisar o tradeoff entre preço e qualidade por conta própria? Comece pelo LLM Selector ou navegue pelo ranking completo em Explore.
Fique por dentro
Análise semanal de LLMs direto no seu email. Sem spam.