Claude Opus 4.8 assume a liderança em qualidade enquanto o Gemini 3.1 Pro cobra 55% menos

Claude Opus 4.8 lidera em qualidade com 61.4, mas custa $10/M. Gemini 3.1 Pro alcança 57.2 por $4.50. Veja onde a linha de custo-benefício realmente está esta semana.

FindLLM1 de junho de 2026

claude-opus-4-8gemini-3-1-progpt-5-5weekly-briefing

O Claude Opus 4.8 (Anthropic) lidera em qualidade esta semana com 61.4, superando por pouco o GPT-5.5 (OpenAI) com 60.2. Ambos custam acima de $10/M. O número mais interessante: o Gemini 3.1 Pro Preview (Google) chega a 57.2 de qualidade por $4.50/M — a apenas 4.2 pontos do topo, custando 55% menos.

Defender o topo está ficando caro

A liderança da Anthropic é real, mas estreita. O Opus 4.8 marca 61.4 contra os 60.2 do GPT-5.5, uma diferença de 1.2 ponto que não vai aparecer na maioria das cargas de trabalho em produção. Ambos rodam devagar para modelos de fronteira: 65 e 66 tok/s, respectivamente.

Para qualquer coisa sensível à latência, nenhum dos dois é a escolha certa. O prêmio que você paga em $10–11.25/M compra os últimos dois pontinhos de qualidade e pouco mais.

Quality comparison

Onde está o verdadeiro custo-benefício

O Gemini 3.1 Pro é o modelo que eu escolheria como padrão esta semana. Com 57.2 de qualidade, $4.50/M e 148 tok/s, ele supera o topo em throughput por mais de 2x, abrindo mão de quase nada em qualidade.

Modelo	Qualidade	Preço/1M	Velocidade
Claude Opus 4.8	61.4	$10.00	65 tok/s
GPT-5.5	60.2	$11.25	66 tok/s
Gemini 3.1 Pro	57.2	$4.50	148 tok/s
Qwen3.7 Max	56.6	$1.88	190 tok/s

O ciclo de iteração mais rápido importa para pipelines agênticos onde você encadeia dezenas de chamadas. A 148 tok/s contra 65, o Gemini corta o tempo total em cadeias de várias etapas praticamente pela metade.

A ponta barata continua diminuindo a diferença

O Qwen3.7 Max (Alibaba) é a história de open-weight que vale acompanhar: 56.6 de qualidade por $1.88/M e 190 tok/s. São 0.6 ponto abaixo do Gemini Pro por menos da metade do preço, com throughput maior.

Para trabalhos em lote onde as tentativas repetidas dominam o custo, o Qwen3.7 Max muda a conta. Você consegue absorver mais chamadas que falham e são repetidas antes que a fatura iguale a de uma única execução do Gemini Pro.

O MiMo-V2.5-Pro (Xiaomi) é o destaque de baixo orçamento, a $0.54/M e 53.8 de qualidade. O problema é a velocidade — 53 tok/s o torna pouco adequado para uso interativo, mas funciona bem para lotes noturnos onde a latência é irrelevante.

Price comparison

Os níveis de raciocínio do GPT-5.5 não ajudam

A OpenAI lança o GPT-5.5 em variantes high/medium, todas a $11.25/M. O modelo simples (60.2) supera o high (58.9) e o medium (56.7). Pagar preço de fronteira pelo nível medium com 56.7 de qualidade não faz sentido quando o Gemini Pro atinge 57.2 por 60% menos.

O que observar

Se o Gemini 3.1 Pro continuará em "Preview" ou terá um aumento de preço na disponibilidade geral — o número de $4.50 é todo o argumento.
A adoção do Qwen3.7 Max em stacks agênticas de produção, agora que ele está a um ponto do Gemini Pro em qualidade.
Se a Anthropic vai ampliar a liderança em qualidade além dos 1.2 pontos, ou se o topo continuará uma disputa de cara ou coroa entre o Opus e o GPT-5.5.

Precisa combinar um modelo com uma carga de trabalho específica? Comece pelo LLM Selector ou explore o campo completo em Explore.

Fique por dentro

Análises revisadas de LLMs quando uma nova edição estiver pronta. Sem spam.