Ir para o conteúdo principal
Voltar ao Blog

GPT-5.5 chega com qualidade 60.2, mas Opus 4.8 mantém a coroa

O GPT-5.5 da OpenAI fica em segundo em qualidade enquanto custa 12% a mais que o Claude Opus 4.8. O Gemini 3.1 Pro ainda vence no preço por qualidade.

FindLLM8 de junho de 2026
gpt-5.5claude-opus-4.8gemini-3.1-prollm-pricingmodel-comparison

A OpenAI lançou o GPT-5.5 (OpenAI) esta semana com qualidade 60.2 e $11.25/1M de tokens. Ele fica em segundo no índice de qualidade, 1.2 ponto atrás do Claude Opus 4.8 em 61.4, e custa 12.5% a mais por milhão de tokens. O topo do ranking agora é uma disputa entre dois competidores, onde você paga um valor extra por ganhos marginais.

Os números que importam

ModeloQualidadePreço/1MVelocidade
Claude Opus 4.861.4$10.0066 tok/s
GPT-5.560.2$11.2562 tok/s
Gemini 3.1 Pro Preview57.2$4.50136 tok/s
Qwen3.7 Max56.6$1.88102 tok/s

Comparação de qualidade

Os níveis de raciocínio do GPT-5.5 contam sua própria história. A configuração padrão pontua 60.2, mas o high cai para 58.9 e o medium para 56.7. Essa inversão é incomum e merece atenção: gastar mais com esforço de raciocínio aqui compra uma qualidade menor nos benchmarks, não maior. Para a maioria dos pipelines, o nível padrão é o que vale a pena usar.

Onde o valor realmente está

Opus 4.8 e GPT-5.5 têm velocidade de saída praticamente igual (66 vs 62 tok/s) e qualidade quase equivalente. Se você já está na Anthropic, o GPT-5.5 não lhe dá motivo para mudar — você pagaria mais por 1.2 ponto a menos de qualidade.

A verdadeira história está abaixo da fronteira. O Gemini 3.1 Pro Preview fica em 57.2 de qualidade por $4.50/1M e roda a 136 tok/s. Contra o GPT-5.5, isso representa uma diferença de 3 pontos em qualidade por 60% menos e mais que o dobro de throughput.

Comparação de preços

Para cargas de trabalho intensivas em código ou agênticas, onde você dispara muitas chamadas, o valor extra da fronteira raramente sobrevive aos cálculos. Três pontos de qualidade não compensam dobrar sua conta de tokens em um pipeline cheio de retentativas.

A faixa de pesos abertos

O Qwen3.7 Max (Alibaba) mantém 56.6 de qualidade a $1.88/1M e é open source. Isso está a apenas 0.6 ponto do Gemini 3.1 Pro por menos da metade do preço, com pesos que você pode hospedar por conta própria. Para jobs em lote onde você controla o hardware, é o caminho mais barato para uma saída próxima da fronteira.

O MiniMax M3, a $0.52/1M e qualidade 54.7, continua sendo o piso para trabalhos sensíveis a custo, embora seu throughput de 44 tok/s o torne uma escolha ruim para loops interativos.

O que observar

  • Se a OpenAI vai corrigir a inversão dos níveis de raciocínio do GPT-5.5 ou se o high está genuinamente ajustado para tarefas que o índice não captura.
  • O Gemini 3.1 Pro ainda está rotulado como Preview. Um lançamento GA pelo mesmo preço de $4.50 pressionaria ambos os modelos de fronteira no custo por qualidade.
  • O Qwen3.7 Max fechando os últimos 0.6 ponto de diferença para o Gemini tornaria o nível de fronteira difícil de justificar para qualquer coisa além das chamadas mais críticas em qualidade.

Quer analisar o tradeoff entre preço e qualidade por conta própria? Comece pelo LLM Selector ou navegue pelo ranking completo em Explore.

Fique por dentro

Análise semanal de LLMs direto no seu email. Sem spam.