Gemini 3.1 Pro iguala a qualidade do Claude Opus 4.7 por menos da metade do preço
O Gemini 3.1 Pro Preview do Google chega a apenas 0,1 ponto do Claude Opus 4.7, custando $4,50 contra $10,00/M tokens. Além disso: Grok 4.3 se destaca como a escolha de melhor custo-benefício em velocidade.
A diferença entre preço e qualidade está desmoronando na faixa intermediária
O Gemini 3.1 Pro Preview (Google) agora marca 57,2 no índice de qualidade — apenas 0,1 ponto atrás do Claude Opus 4.7 (Anthropic), que está em 57,3. A diferença de custo: $4,50 vs $10,00 por milhão de tokens. Com 131 tok/s contra 59 tok/s, o Gemini também entrega inferência mais de duas vezes mais rápido. Para qualquer carga de trabalho em que você não precisa extrair até a última fração de qualidade, o argumento econômico a favor do Claude Opus nessa faixa se enfraqueceu significativamente.
O ranking desta semana
| Modelo | Qualidade | Preço/M | Velocidade | Melhor para |
|---|---|---|---|---|
| GPT-5.5 | 60,2 | $11,25 | 75 tok/s | Qualidade máxima, sem restrição de custo |
| Claude Opus 4.7 | 57,3 | $10,00 | 59 tok/s | Lock-in no ecossistema Anthropic |
| Gemini 3.1 Pro Preview | 57,2 | $4,50 | 131 tok/s | Produção com alto throughput |
| Grok 4.3 | 53,2 | $1,56 | 112 tok/s | Alto volume, custo restrito |
Grok 4.3 é o destaque silencioso
O Grok 4.3 (xAI) está em 53,2 de qualidade, $1,56/M tokens e 112 tok/s. Isso é mais rápido que o GPT-5.5 e mais barato que quase tudo acima dele. A diferença de qualidade para o Gemini 3.1 Pro é de 4 pontos, o que importa para cadeias de raciocínio complexas. Mas para tarefas de classificação, extração e saída estruturada onde uma qualidade acima de 53 é suficiente, o Grok entrega o melhor custo-benefício em tokens por dólar com alto throughput. Menos retentativas a 112 tok/s significa ciclos de iteração mais curtos em arquiteturas de agentes.
A categoria open-source
O Kimi K2.6 (MoonshotAI) lidera os modelos de pesos abertos com 53,9 de qualidade e $1,43/M tokens, embora a latência de inferência de 31 tok/s limite seu uso em aplicações em tempo real. O Qwen3.6 Max Preview (Alibaba) oferece 51,8 de qualidade a $2,92/M — quase o dobro do preço do Kimi para uma qualidade inferior. Para implantações self-hosted onde você controla a stack de inferência, o Kimi K2.6 é a escolha clara se você conseguir tolerar a restrição de throughput.
Tiers de raciocínio do GPT-5.5: retornos decrescentes confirmados
A diferença entre GPT-5.5 (60,2), GPT-5.5 high (58,9) e GPT-5.5 medium (56,7), todos a $11,25/M tokens, torna o tier padrão a única escolha racional — a menos que você precise de latência determinística do tier medium. Eu cobri isso em detalhes na semana passada, mas vale repetir: mesmo preço, 3,5 pontos de diferença em qualidade. Use sempre o padrão.
O que ficar de olho
Gemini 3.1 Pro saindo do preview. Se o Google mantiver o preço de $4,50 no GA, ele se torna a recomendação padrão para cargas de trabalho em produção na faixa de qualidade 55-58.
Próximo passo do Grok. A $1,56/M e 112 tok/s, a xAI está posicionada para capturar cargas de trabalho de processamento em lote. Qualquer aumento de qualidade acima de 55 o torna uma ameaça séria à proposta de valor do Gemini.
Muse Spark da Meta. Listado com 52,1 de qualidade, ainda sem dados de preço ou velocidade. Se a Meta precificar isso de forma agressiva como modelo aberto, a faixa abaixo de $1/M pode ficar interessante rapidamente.
Encontre o modelo certo para as restrições da sua carga de trabalho com o Seletor de LLM.
Fique por dentro
Análise semanal de LLMs direto no seu email. Sem spam.