Claude Opus 4.8 assume a liderança em qualidade enquanto o Gemini 3.1 Pro cobra 55% menos
Claude Opus 4.8 lidera em qualidade com 61.4, mas custa $10/M. Gemini 3.1 Pro alcança 57.2 por $4.50. Veja onde a linha de custo-benefício realmente está esta semana.
O Claude Opus 4.8 (Anthropic) lidera em qualidade esta semana com 61.4, superando por pouco o GPT-5.5 (OpenAI) com 60.2. Ambos custam acima de $10/M. O número mais interessante: o Gemini 3.1 Pro Preview (Google) chega a 57.2 de qualidade por $4.50/M — a apenas 4.2 pontos do topo, custando 55% menos.
Defender o topo está ficando caro
A liderança da Anthropic é real, mas estreita. O Opus 4.8 marca 61.4 contra os 60.2 do GPT-5.5, uma diferença de 1.2 ponto que não vai aparecer na maioria das cargas de trabalho em produção. Ambos rodam devagar para modelos de fronteira: 65 e 66 tok/s, respectivamente.
Para qualquer coisa sensível à latência, nenhum dos dois é a escolha certa. O prêmio que você paga em $10–11.25/M compra os últimos dois pontinhos de qualidade e pouco mais.
Onde está o verdadeiro custo-benefício
O Gemini 3.1 Pro é o modelo que eu escolheria como padrão esta semana. Com 57.2 de qualidade, $4.50/M e 148 tok/s, ele supera o topo em throughput por mais de 2x, abrindo mão de quase nada em qualidade.
| Modelo | Qualidade | Preço/1M | Velocidade |
|---|---|---|---|
| Claude Opus 4.8 | 61.4 | $10.00 | 65 tok/s |
| GPT-5.5 | 60.2 | $11.25 | 66 tok/s |
| Gemini 3.1 Pro | 57.2 | $4.50 | 148 tok/s |
| Qwen3.7 Max | 56.6 | $1.88 | 190 tok/s |
O ciclo de iteração mais rápido importa para pipelines agênticos onde você encadeia dezenas de chamadas. A 148 tok/s contra 65, o Gemini corta o tempo total em cadeias de várias etapas praticamente pela metade.
A ponta barata continua diminuindo a diferença
O Qwen3.7 Max (Alibaba) é a história de open-weight que vale acompanhar: 56.6 de qualidade por $1.88/M e 190 tok/s. São 0.6 ponto abaixo do Gemini Pro por menos da metade do preço, com throughput maior.
Para trabalhos em lote onde as tentativas repetidas dominam o custo, o Qwen3.7 Max muda a conta. Você consegue absorver mais chamadas que falham e são repetidas antes que a fatura iguale a de uma única execução do Gemini Pro.
O MiMo-V2.5-Pro (Xiaomi) é o destaque de baixo orçamento, a $0.54/M e 53.8 de qualidade. O problema é a velocidade — 53 tok/s o torna pouco adequado para uso interativo, mas funciona bem para lotes noturnos onde a latência é irrelevante.
Os níveis de raciocínio do GPT-5.5 não ajudam
A OpenAI lança o GPT-5.5 em variantes high/medium, todas a $11.25/M. O modelo simples (60.2) supera o high (58.9) e o medium (56.7). Pagar preço de fronteira pelo nível medium com 56.7 de qualidade não faz sentido quando o Gemini Pro atinge 57.2 por 60% menos.
O que observar
- Se o Gemini 3.1 Pro continuará em "Preview" ou terá um aumento de preço na disponibilidade geral — o número de $4.50 é todo o argumento.
- A adoção do Qwen3.7 Max em stacks agênticas de produção, agora que ele está a um ponto do Gemini Pro em qualidade.
- Se a Anthropic vai ampliar a liderança em qualidade além dos 1.2 pontos, ou se o topo continuará uma disputa de cara ou coroa entre o Opus e o GPT-5.5.
Precisa combinar um modelo com uma carga de trabalho específica? Comece pelo LLM Selector ou explore o campo completo em Explore.
Fique por dentro
Análise semanal de LLMs direto no seu email. Sem spam.